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内 容 简 介 


本 书 系 统 地 介绍 语音 信号 处 理 的 基础 .概念 .原理 ,方法 与 应 用 。 全 书 共 分 9 章 。 第 1 章 介 绍 语 音信 
号 处 理 及 其 发 展 过 程 ; 第 2 章 介绍 语音 信号 的 产生 与 人 类 听觉 的 机 理 , 传 统 的 线性 语音 产生 模型 ,以 及 非 
线性 语音 产生 模型 ; 第 3 章 从 语音 信号 的 时 域 特征 入 手 , 引 入 时 频 分 析 的 思想 ,并 进一步 曾 述 时 频 分 析 中 
短 时 伟 里 叶 变 换 和 小 波 变 换 在 语 首 信号 特征 分 析 中 的 应 用 ,最 后 对 广泛 使 用 的 倒 谱 特 征 以 及 同 态 解 卷 积 
进行 介绍 ; 第 4 间 介 绍 语 首 信 号 的 线性 预测 原理 ,解法 、 几 种 推演 方法 以 及 线 详 对 分 析 法 ; 第 5 章 介绍 语 
音 编 码 的 相关 知识 ,包括 语音 的 波形 编码 . 极 低速 率 语 音 编 码 技术 ,以 及 相关 编码 天 的 性 能 指标 和 评测 方 
法 ; 第 6 章 介绍 语音 识别 的 基本 内 容 , 从 基于 矢量 量化 的 识别 技术 到 动态 时 间 归 正 的 识别 技术 ,从 隐 马 尔 
可 夫 模 型 技术 到 基于 深度 学 习 的 语 首 识别 技术 ,从 孤立 词 识别 到 连接 词 识别 及 连续 语 首 识别 技术 ,再 到 关 
键 词 检 出 技术 ,最 后 还 介绍 新 兴起 的 语音 识别 应 用 技术 ,以 及 用 于 HMM 系统 构建 的 HTK 工具 和 用 于 深 
度 学 习 系 统 构建 的 Kaldi 工具 等 ; 第 7 章 介绍 说 话 人 识别 的 基本 内 容 , 从 基于 GMM-UBM 的 识别 技术 到 
基于 支持 问 量 机 的 识别 技术 ,从 基于 联合 因子 分 析 的 识别 技术 到 基于 i-vector 的 识别 技术 ,以 及 近年 来 受 
到 关注 的 基于 深度 学 习 的 识别 技术 等 : 第 8 章 介 绍 项 健 语 首 识 别 技 术 , 从 影响 语 首 识 别 性 能 的 环境 变化 因 
率 分 析 开 始 ,介绍 噪声 环境 下 闫 健 语音 识别 技术 ,以 及 变异 语音 识 别 的 技术 ; 第 9 章 介 绍 语 首 合成 的 基本 
原理 .线性 预测 合成 ,共振 峰 合 成 以 及 汉语 按 规则 合成 ,以 及 基于 HMM 的 合成 技术 等 内 容 。 

本 书 可 作为 高 等 院 校 计算 机 应 用 、 信 号 与 信息 处 理 . 通信 与 电子 系统 等 专业 及 学 科 的 高 年 级 本 科 生 、 
研究 生 教材 ,也 可 供 该 领域 的 科研 及 工程 技术 人 员 参 考 ， 
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PREFACE 


语音 信号 处 理 以 语音 为 研究 对 象 ,涉及 心理 学 .生理 学 .语言 学 .数字 信号 处 理 、 模 式 识 
别 、 人 工 智 能 、 机 器 学 习 等 诸多 研究 领域 ,甚至 还 涉及 人 说 话 时 的 表情 、 手 势 等 体态 语言 信 
上 县。 由 于 语音 是 人 们 日 党 生活 中 的 主要 交流 手段 ,因此 声音 信号 处 理 在 现代 信息 社会 中 占 
有 重要 地 位 。 

语音 信号 处 理 的 研究 工作 最 早 可 以 追溯 到 19 世纪 70 年 代 , 在 20 世纪 得 到 了 长 足 的 发 
展 , 并 在 20 世纪 90 年 代 , 随 着 IBM.,、Microsoft、Apple,AT&.T、NTT 等 著名 公司 为 语音 识 
别 的 实用 化 开发 投 以 巨 资 ,掀起 了 语音 信号 处 理 技 术 的 应 用 热潮 。 进 入 21 世纪 ,伴随 着 以 
深度 神经 网 络 为 代表 的 深度 学 习 理 论 的 全 面 突破 、 以 通用 图 形 处 理 颖 (GPU) 为 代表 的 硬件 
技术 的 迅 独 发 展 , 语 音 识 别 的 性 能 得 到 显 赦 提高 ,从 而 迎 来 了 声音 信号 处 理 技术 的 竹 勃 
发 展 。 

目前 在 语音 信号 处 理 领 域 中 不 断 有 新 的 技术 涌现 。 本 书 青 版 的 目的 就 是 将 这 些 新 的 技 
术 融 合 到 已 有 的 相关 理论 与 技术 中 。 人 全书 以 语音 信号 处 理 过 程 的 总 体 框架 为 线索 ,全 面 阐 
述 语音 信号 的 前 问 处 理 技 术 、 语 音 编码 技术 ,语音 识 别 和 说 话 人 识别 技术 ,以 及 语音 合成 技 
术 。 相 对 于 上 一 版 ,本 书 补充 了 基于 深度 学 习 的 语音 识别 ,基于 i-vector 的 说 话 人 识别 等 本 
领域 的 前 沿 理 论 和 技术 ,以 利于 读者 充分 了 解 最 新 的 学 术 发 展 动态 ,并 能 在 学 术 思 想 上 受到 
启发 。 同 时 , 书 中 也 介绍 了 当前 深度 学 习 方 法 中 广泛 采用 的 Kaldi 工具 的 使 用 技巧 ,以 帮助 
读者 掌握 相关 的 实践 手段 。 

本 书 涉及 作者 承担 的 多 项 国家 自然 科学 基金 项 目的 部 分 研究 成 果 , 在 内 容 上 既 注 重 基 
本 理论 的 系统 性 ,又 菩 顾 实用 性 和 可 读 性 ,可 作为 高 等 院 校 计算 机 应 用 、 信 号 与 信息 处 理 、 通 
信和 与 电子 系统 等 专业 及 学 科 的 高 年 级 本 科 生 、 人 研究 生 教材 ,也 可 供 该 领域 的 科研 及 工程 技术 
人 员 人 参考。 

本 书 的 第 1.2、4 章 由 韩 纪 庆 编写 ,第 3.6.9 章 由 张震 编写 ,第 5.7.8 章 由 郑 铁 然 编 写 。 
转 纪 庆 负 责 全 书 的 总 体 安 排 和 审定 。 在 新 版 增加 的 内 容 中 , 郑 铁 然 在 基于 深度 学 习 的 声音 
识别 部 分 .陈晨 在 说 话 人 识别 部 分 . 史 秋 莹 在 Kaldi 工具 部 分 的 撰写 上 作出 了 重要 贡献 。 郑 
贯 滨 为 书稿 的 完善 做 了 大 量 工 作 ,在 此 表示 感谢 ! 

本 书 虽 然 是 作者 从 事 语音 信号 处 理工 作 30 年 的 理论 与 实践 的 结晶 ,但 因 作 者 水 平 有 
限 、 时 间 仓 促 ,缺点 和 错误 在 所 难免 ,人 馈 请 读者 批评 指正 ,提出 宝贵 意见 。 
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CHAPTER | 


语言 是 人 类 最 重要 的 交流 工具 , 它 自然 方便 、 准 确 高 效 。 随 着 社会 的 不 断 发 展 ,各 种 各 
样 的 机 器 参与 了 人 类 的 生产 活动 和 社会 活动 ,因此 改善 人 和 机 器 之 间 的 关系 ,方便 人 对 机 器 
的 操纵 就 显得 越 来 越 重要 。 随 着 电子 计算 机 和 人 工 智能 机 器 的 广泛 应 用 ,人 们 发 现 ,人 和 机 
器 之 间 最 好 的 通信 方式 是 语言 通信 。 而 请 音 是 语言 的 声学 表现 形式 ; 要 使 机 器 听 懂 人 的 请 
言 并 能 使 用 人 类 的 语言 进行 表达 ,需要 做 很 多 工作 ,这 就 是 研究 了 几 十 年 的 语音 识别 和 语音 
合成 技术 。 而 随 着 移动 通信 的 迅猛 发 展 ,人 们 可 以 随时 随地 通过 电话 进行 交流 ,其 中 语音 斥 
缩编 码 技术 发 挥 着 重要 的 作用 。 上 述 这 些 应 用 领域 构成 了 语音 信号 处 理 技术 的 主要 研究 
内 容 。 

语音 信号 处 理 是 语音 学 与 数字 信号 处 理 技术 相 结合 的 交叉 学 科 , 它 和 认 知 科学 、 心 理 
学 .语言 学 .计算 机 科学 、 模 式 识别 和 人 工 智能 等 学 科 联 系 紧密 ; 语音 信号 处 理 技术 的 发 展 
依赖 这 些 学 科 的 发 展 ,而 语音 信号 处 理 技术 的 进步 也 会 促进 这 些 学 科 的 进步 ， 


1.1 语音 信号 处 理 的 发 展 


语音 信号 处 理 的 研究 工作 最 早 可 以 追溯 到 1876 年 贝尔 发 明 的 电话 , 它 首 次 完成 了 用 声 
电 一 电 声 转换 来 实现 远 跑 离 传输 坪 音 的 技术 。1939 年 ,Dudley 研制 成 功 了 第 一 个 殊 查 背 ， 
从 此 带 定 了 语音 产生 模型 的 基础 ,这 一 工作 在 声音 信号 处 理 领 域 具有 划时代 的 意义 。1947 
年 ,贝尔 实验 室 发 明了 请 谱 图 仪 ,将 语音 信号 的 时 变频 谱 用 图 形 表示 出 来 ,为 语 首 信号 的 分 
析 提 供 了 一 个 有 力 的 工具 。1948 年 ,美国 Haskins 实验 室 研 制 成 功 “ 语 图 回放 机 ”, 它 把 手 
工 绘制 在 注 膜 请 上 的 语 详 图 目 动 转换 为 声音 ,可 以 进行 语音 合成 。 共 振 峰 合成 方法 就 是 源 
me 

对 语音 识别 而 言 , 它 的 赋 究 相 对 较 上 晚 ,起源 于 20 世纪 50 年 代 。 语 音 识 别 拉 术 的 根本 日 
的 是 人 猎 究 出 一 种 具有 了 听 先 功能 的 机 如 ,能 接收 和 人 类 的 语 首 ,理解 人 的 意图 。 由 于 请 首 识 别 本 
号 也 固有 的 难度 ,人 们 提出 了 各 种 限制 条 件 下 的 人 研究 任务 ,并 由 此 产生 了 不 同 的 研究 领域 。 
这 些 领 域 包括 : 按说 语 人 的 限制 ,可 分 为 特定 次 话 人 语音 识别 和 非特 定 说 语 人 博 音 识别 ; 
按 词汇 量 的 限制 ,可 划分 为 小 词汇 量 .中 词汇 量 和 大 词汇 量 的 识别 ; 按说 话 方 式 的 限制 ,可 
分 为 孤立 词 识别 和 连续 语音 识别 等 。 最 简单 的 研究 领域 是 特定 说 话 人 小 词汇 量 孤 立 词 的 识 
别 ,而 最 难 的 则 是 非特 定 说 语 人 大 词汇 量 连续 语音 的 识别 。 
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1952 年 ,贝尔 实验 室 的 Davis 等 妍 制 了 特定 说 话 人 孤立 数字 识别 系统 。 该 系统 利用 每 
个 数字 元 音 部 分 的 频谱 特征 进行 识别 。1956 年 ,RCA 实验 室 的 Olson 等 也 独立 地 研制 出 
10 个 单 首 慷 词 的 识别 系统 ,系统 采用 从 和 市 通 滤 波 各 组 获得 的 频谱 参数 作为 语音 的 特征 。 
1959 年 ,Fry 和 Denes 等 符 试 构建 音 隶 识别 天 来 识别 4 个 元 音 和 9 个 辅音 ,采用 频谱 分 析 和 
模式 匹配 来 进行 识别 决 案 ,其 突出 页 献 在 于 ,使 用 了 英语 音 系 序列 中 的 统计 信息 来 改进 词 中 
音素 的 精度 。1959 年 ,MIT 林肯 实验 室 的 Forgie 等 ,采用 声 道 的 时 变 估 计 技 术 对 10 个 元 
音 进 行 识 别 。 

20 世纪 60 年 代 初 期 ,日 本 的 很 多 研究 者 开发 了 相关 的 特殊 便 件 来 进行 语音 识别 ,如 东 
京 无 线 电 研 究 实 验 室 Suzuki 等 癸 制 的 通过 便 件 来 进行 元 音 识 别 的 系统 。 在 此 期 间 开 展 的 
很 多 人 研究 工作 对 后 来 近 二 十 年 的 语音 识别 研究 产生 了 很 大 的 影响 。RCA 实验 室 的 Martin 
等 在 20 世纪 60 年 代 末 开始 研究 坪 音 信号 时 间 矿 度 不 统一 的 解雇 办 法 ,开发 了 一 系列 的 时 
间 归 正方 法 ,明显 地 改善 了 识别 性 能 。 与 此 同时 ,苏联 的 Vintsyuk 提出 了 采用 动态 规划 方 
法 来 解 雇 两 个 语音 的 时 间 对 谁 问 题 。 尽 管 这 是 动态 时 间 弯 折算 法 (dynamic time warping， 
DTW) 的 基础 ,也 是 连接 词 识别 算法 的 初级 版 ,但 Vintsyuk 的 工作 并 不 为 学 术 界 的 广大 人 研 
究 者 所 知 , 直到 20 世纪 80 年 代 大 家 才 知 道 Vintsyuk 的 工作 ,而 这 时 DTW 方法 已 广 为 
人 知 。 

值得 一 提 的 是 20 世纪 60 年 代 中 期 ,斯 坦 福 大 学 的 Reddy 开始 符 试 用 动态 跟踪 音 对 的 
方法 来 进行 连续 语音 的 识别 。 后 来 Reddy 加 入 卡 内 基 梅 隆 大 学 ,多 年 来 在 连续 语音 识别 上 
开展 了 里 有 成 效 的 工作 ,直至 现在 仍然 在 此 方面 居于 领先 地 位 。 

20 世纪 70 年 代 之 前 , 语 首 识别 的 研究 特点 是 以 孤立 词 的 识别 为 主 。20 世纪 70 年 代 ， 
语音 识别 研究 在 多 方面 取得 了 请 多 的 成 就 ,在 孤立 词 识别 方面 ,日 本 学 省 Sakoe 给 出 了 使 用 
动态 规划 方法 进行 语音 识别 的 途径 一 一 DTW 算法 , 它 是 把 时 间 归 正和 距离 测度 计算 结合 
起 来 的 一 种 非 线 性 归 正 技术 。 这 是 语音 识别 中 一 种 非常 成 功 的 匹配 算法 ,当时 在 小 词汇 量 
的 研究 中 获得 了 成 功 , 从 而 掀起 了 语音 识别 的 研究 热潮 。Itakura 利用 语音 编码 中 广泛 使 用 
的 线性 预测 编码 (linear predictive coding,LPC) 技 术 ,通过 定义 基于 LPC 频谱 参数 的 合 i 
的 距离 测度 ,成 功 地 将 其 扩展 应 用 到 语音 识别 中 。 以 IBM 为 首 的 一 些 人 研究 单位 还 看 手 开 展 
了 连续 语音 识别 的 研究 ,AT&T 的 贝尔 实验 室 也 开展 了 一 系列 非特 定 说 话 人 语音 识别 方面 
的 人 研究 工作 。 

应 该 指出 的 是 ,20 世纪 70 年代, 人工 和 信 能 拉 术 开始 被 引入 到 语 首 识 别 中 。 美 国 国 防 部 
的 高 级 研究 规划 局 (Advanced Research Projects Agency,ARPA) 组 织 了 有 卡 内 基 梅 隆 大 学 
等 五 个 单位 参加 的 一 项 大 规模 博 音 识别 和 理解 的 研究 计划 , 当时 专家 们 认为 : 要 使 语音 识 
别 研 究 获 得 突破 性 进展 ,必须 让 计算 机 像 人 那样 具有 理解 语言 的 借 能 ,而 人 不必 过 多 地 在 沂 立 
词 识 别 上 下 功夫 。 在 这 个 历时 五 年 的 庞大 的 研 究 计 划 中 ,最终 在 声言 理解 .语言 的 统计 模型 
等 方面 积 素 了 经验 ,其 中 上 卞 内 基 梅 隆 大 学 完成 的 Hearsay-II 和 Harpy 两 个 系统 效果 最 好 。 
在 这 两 个 系统 中 ,引用 了 “黑板 模型 "来 完成 研 层 和 顶层 之 加 不 同 层 次 的 信息 交换 和 规则 调 
用 ,成 为 以 后 其 他 专家 系统 研究 工作 中 的 一 种 规范 。 但 从 整体 上 看 ,这 个 计划 并 没有 取得 突 
做 性 的 进展 。 

20 世纪 70 年 代 末 80 年 代 初 ,Linda、Buzo、Gray 等 提出 了 矢量 量化 (vector quantization) 人 码 
本 生成 的 方法 ,并 将 矢量 量化 技术 成 功 地 应 用 到 语音 编码 中 ,从 此 矢量 量化 技术 不 仅 在 语音 
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识别 .语音 编码 和 说 话 人 识别 等 方面 发 挥 了 重要 的 作用 ,而 且 很 快 推广 应 用 到 其 他 领域 。 这 

-时 代 ,语音 识别 的 研究 重点 之 一 是 连接 词 识别 ,典型 的 工作 是 进行 效 字 串 的 识别 。 人 研究 者 
提出 了 各 种 连接 词语 痛 识 别 算 法 ,大 多 数 工 作 是 基于 对 独立 的 词 模板 进行 拼接 来 进行 匹配 
的 方法 ,如 两 级 动态 规划 识别 算法 、 分 层 构 筑 (level building)、 幅 同步 (frame synchronous) 
分 层 构 质 方法 等 。 这 些 方法 都 有 各 上 月 的 特点 , 广 沁 用 于 连接 词 识 别 当 中 。 

20 世纪 80 年 代 开 始 , 博 音 识别 人 赋 究 的 一 个 重要 进展 ,了 驶 是 识别 算法 从 模式 匹配 扩 本 靶 
问 基于 统计 模型 的 技术 ,更 多 地 追求 从 整体 统计 的 角度 来 建立 最 佳 的 语音 识别 系统 。 隐 马 
尔 可 夫 模 型 (hidden markov model, HMM) 技 术 就 是 其 中 的 一 个 典型 ; 尽管 开始 的 时 候 仅 
有 和 较 少 的 单位 采用 这 种 模型 ,但 由 于 该 模型 能 很 好 地 描述 语音 信号 的 时 变性 和 平稳 性 ,具有 
把 从 声学 一 语言 学 到 句法 等 统计 知识 全 部 集成 在 一 个 统一 框架 中 的 优点 ,因此 从 20 世纪 
80 年 代 起 , 它 被 三 沁 地 应 用 到 请 首 识别 研究 中 。 耳 到 目前 为 止 , HMM 方法 仍然 是 语音 识 
别 研 究 中 的 主流 方法 。HMM 的 人 研究 使 大 词汇 量 连 续 语 首 识别 系统 的 开发 成 为 可 能 。20 
世纪 80 年 代 末 ,美国 卡 内 基 梅 隆 大 学 用 VQ/HMM 实现 了 997 词 的 非特 定 人 连续 语音 识 
别 系 统 SPHINX, 这 是 世界 上 第 一 个 高 性 能 的 非特 定 人 大 词汇 量 .连续 声音 识别 系统 。 此 
外 ,BBN 的 BYBLOS 系统 ,林肯 实验 室 的 识别 系统 等 也 都 具有 很 好 的 性 能 。 这 些 研 究 工 作 
开创 了 语 首 识 别 的 新 时 代 。 

从 20 世纪 80 年 代 后 期 和 90 年代 初 开 始 , 人 工 神 经 网 络 (artificial neural network， 
ANN) 的 研究 异常 活路 ,并且 被 应 用 到 语音 识别 的 研究 中 。 进 入 20 世纪 90 年 代 后 ,相应 的 
研究 工作 在 模型 设计 的 细 化 .参数 提取 和 优化 ,以 及 系统 的 自 适应 技术 等 方面 取得 了 一 些 关 
刍 性 的 进展 ,使 语音 识别 搁 术 进一步 成 熟 , 并 且 出 现 一 些 很 好 的 产品 。 许 多 发 达 国 家 ,如 美 
国 .日 本 .韩国 ,以 及 IBM、Microsoft、Apple、.AT&.T、NTT 等 著名 公司 都 为 语音 识别 系统 的 
实用 化 开发 研究 投 以 巨 资 。 

进入 21 世纪 ,基于 深度 学 习 理 论 的 语音 识别 得 到 了 全 面 突破 ,识别 性 能 显著 提高 。 
2006 年 ,加拿大 和 多伦多 大 学 的 Hinton 等 提出 了 一 种 深度 神经 网 络 (deep neural network， 
DNN) 模 型 一 一 深度 置信 和 网络 模型 (deep belief network，DBN) 。 它 由 一 组 受 限 玻 尔 效 曼 机 
(restricted boltzmann machine，RBM) 堆 县 而 成 ,其 核心 部 分 是 贪 榴 的 和 逐 层 无 监督 学 习 算 
法 ,其 时 间 复 杂 度 与 网 络 的 大 小 及 这 度 呈 线 性 关系 。 通 过 先 使 用 DBN 来 对 包含 多 个 隐 层 
的 多 层 感 知 机 进行 预 训练 ,然后 通过 反 回 传播 算法 来 进行 微调 (fine-tuning) ,能 够 提供 一 种 
解决 这 层 网 络 优化 过 程 中 过 拟 合 和 柳 度 消失 问题 的 有 效 途 径 。 

通 稼 对 DNN 等 这 度 模型 的 训练 需要 具有 踢 大 计算 能 力 的 设备 ,而 近年 来 以 通用 图 形 
处 理 融 (Cgraphics processing unit,GPU) 为 代表 的 使 件 技术 的 迅 狐 友 展 ,有 力 文 择 了 这 度 学 
习 理 论 与 方法 的 高 效 实 现 。 

最 早 将 这 度 神经 网 络 方法 成 功 应 用 到 语音 识别 中 的 研究 机 构 是 多 伦 多 大 学 与 微软 研究 
院 。 他 们 使 用 DNN 代替 传统 的 GMM-HMM 系统 中 的 高 斯 混合 模型 ,以 音素 状态 为 建 模 
单位 ,提出 了 DNN-HMM 的 识别 方法 , 显 者 降低 了 误 识 率 , 从 而 引发 了 基于 褒 度 神经 网 络 
的 语音 识别 热潮 。 此 后 , 随 着 深度 学 习 技 术 的 发 展 , 卷 积 神经 网 络 (convolutional neural 
networks,CNN) 和 循环 神经 网 络 (Crecurrent neural networks,; RNN) 等 网 络 结 构成 功 地 应 
用 到 语音 识别 任务 中 。 它 们 与 传统 的 DNN 方法 相 比 展现 出 了 各 自 的 优势 ,受到 越 来 越 广 
沁 的 关注 。 目 前 ,能 够 彻 抵 皖 腕 HMM 框 力 的 奖 到 闪 场 音 识 别 技术 正 日 益 成 为 请 音 识 别 研 
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究 的 焦点 ,无 论 是 学 术 机 构 , 还 是 工业 界 都 投入 大 量 的 人 力 和 财力 ,致力 于 此 方面 的 研究 。 
近年 来 ,语音 识别 研究 工作 揭 趋 于 解决 在 真实 环境 应 用 时 所 面临 的 实际 问题 ,这 可 从 作 
为 国际 声音 识别 人 研究 热点 风 回 标的 NISTCnational institute of standards and technology) 
评测 情况 反映 出 来 : 其 评测 的 夺 音 类 型 已 从 最 初 的 姑 读 语 首 到 三 播 语 首 ,上 髓 a 到 后 来 的 交谈 
式 电 话 场 音 (Cconversational telephone speech) ,发 展 到 目前 真实 场景 的 会 议 霹 音 。 相 对 于 
广播 语音 ,交谈 式 电 话语 音 增加 了 相应 的 难度 ,具体 表现 在 : 发 首 多 为 日 发 的 口语 语 痛 ， 
在 看 大 量 的 不 流利 (如 犹豫 词 、 重复 、 更正 等 ) 现 象 ,同时 , 霹 音 内 容 和 词汇 的 随机 性 明显 增 
加 。 此 外 ,针对 实际 的 电话 线路 ,噪声 的 影响 较 大 。2002 年 ,美国 国防 部 先进 研究 项 目 局 
(Defense Advanced Research Projects Agency, DARPA ) 提出 了 一 个 “EARS-Effective， 


的 语音 评测 推 到 了 又 一 个 新 的 时 代 一 一 丰 蜗 的 声音 文本 (rich transcription,RT) 转 写 , 其 要 
求 不 仅 将 请 音 所 对 应 的 文字 显示 出 来 ,而 且 要 将 一 音 中 的 其 他 丰富 信息 ,如 文字 之 间 的 标点 
和 从 号、 句 词 之 间 的 停顿 说话 人 等 也 能 同时 识别 出 来 。 从 2004 年 的 评测 结果 看 ,对 广播 语音 
和 电话 语音 的 词 错 误 率 (word error rates, WERs) 已 分 别 下 降 到 10% 和 15% 以 下 。 从 
2005 年 起 ,NIST 评测 的 语音 类 型 转变 为 英 博 会 议 语 音 , 包 括 磋 商 式 会 议 (conference 
meeting) 和 演讲 式 会 议 (lecture meeting) ,其 特点 是 研究 真实 会 以 场景 中 多 人 多 方 对 话 时 的 
口语 语音 识别 。 相 对 于 交谈 式 电 话语 音 ,会 议 语 首 又 增加 了 相应 的 难度 ,表现 在 : 必须 解决 
会 议 场景 中 处 于 不 同位 置 上 说 话 人 语音 数据 的 有 效 采 集 问 题 ,以 及 在 多 人 交谈 相互 语音 有 
少 部 分 交友 时 各 上 自 语音 的 分 离 问 题 。 为 此 ,NIST 评测 中 开始 提供 采用 远离 用 户 , 且 处 于 空 
间 上 多 个 位 置 、 皖 放 形 式 多 样 的 多 麦 殉 风 或 麦 郊 风 阵 列 采 集 来 的 现场 数据 作为 评测 的 语 料 。 
从 2007 年 进行 的 评测 结果 看 ,会 议 语音 的 词 错 误 率 在 40 为 一 50 为 之 间 。2009 年 的 评测 内 
容 基 本 与 2007 年 相同 ,所 不 同 的 是 仅 进 行 磋 商 式 会 议 请 首 的 评测 ,同时 为 各 个 测试 任务 定 
义 了 视频 和 音 视频 的 输入 条 件 。 

目前 无 论 从 NIST 评测 的 内 容 看 ,还 是 欧美 发 达 国 家 的 关注 点 看 ,全 究 真实 场景 中 多 
人 多 方 对 话 时 的 口语 语 首 识别 是 当前 语 首 识别 的 人 研究 热点 之 一 。 从 人 处理 口语 语音 与 期 
读 圭 首 的 方法 看 ,其 不 同 之 处 在 于 再 学 模型 的 上 月 适应 (acoustic adaptation) 和 发 首 词 典 日 
适应 (lexicon adaptation) 方 面 。 声学 模型 日 适应 和 常 来 用 基于 最 大 似 然 线性 回归 (maximum 
likelihood linear regression， MLLR) 和 最 大 后 验 概率 (maximum a posteriori, MAP) 的 方法 。 
这 两 种 方法 是 当前 最 为 有 效 的 月 适应 方法 ,许多 新 的 上 月 适应 方法 都 是 从 二 者 中 小 生出 来 的 。 
发 音 词 典 自 适应 常 采 用 发 音 变 化 建 模 (pronunciation variation modeling) 相 关 技 术 ,主要 研 
究 由 说 话 方 式 、 请 速 , 口 音 等 带 来 的 影响 。 

口语 请 音 识 别 的 为 一 个 挑战 是 屿 乏 建 立 在 大 量 口 说 文本 请 料 之 上 民 好 的 语言 模型 。 虹 
读 请 首 识 别 右 所 使 用 的 统计 请 言 模 型 ,实际 上 部 要 依赖 于 大 规模 的 训练 语 料 , 但 是 同样 量 级 
的 口 请 请 言 的 文字 脚本 还 难以 实现 。 口 合计 首 中 的 不 连 吐 进一步 增加 了 请 言 模型 信 计 的 难 
度 。 目 前 研究 者 正 致力 于 多 种 口语 语言 模型 的 建 模 方法 研究 。 

当前 语音 识别 研究 的 为 一 个 趋势 是 ,不 再 只 单纯 地 关注 大 词 表 连续 语音 识别 的 精度 ,而 
是 从 实际 的 应 用 角度 出 发 ,积极 探索 机 融 对 人 类 的 请 音 进 行 感知 与 理解 的 途径 和 方法 。 而 
从 整个 计算 领域 的 发 展 趋 抒 看 ,近年 的 研究 热点 之 一 是 普 适 计算 ,计算 的 模式 与 物理 位 置 也 
正 从 传统 的 果 面 方式 巡 步 同 以 艇 入 式 人 处理 为 特征 的 无 处 不 在 的 方式 发 展 ,比较 典型 的 是 移 
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动 计算 方式 。 因 此 对 语音 处 理 而 言 ,探讨 在 典型 的 移动 方式 下 的 语音 感知 与 理解 机 制 ,实现 
能 根据 用 户 的 语音 内 容 及 所 处 的 痛 频 场景 ,并 借助 其 他 辅助 信息 (如 地 理 位 置 \ 时 间 等 ) 日 主 
地 感知 和 理解 用 户 的 意图 及 情感 倾 回 , 从 而 提供 更 叔 能 化 、 人 性 化 的 人 机 交互 手段 ,具有 重 
要 的 理论 意义 与 现实 意义 。 同 时 , 随 看 网 络 技术 和 移动 计算 技术 的 迅速 发 展 ,出 现 了 网 络 环 
境 下 的 语 首 识别 搁 术 、 租 入 式 和 计算 资源 有 限时 的 语 首 识别 技术 ,语种 识别 技术 、 基 于 语 冯 
的 情感 处 理 技术 等 一 些 新 的 研究 方 回 。 

在 国内 ,20 世纪 50 年 代 末 就 有 人 和 莹 试 用 电子 管 电 路 进行 元 音 识别 ,而 到 了 70 年 代 才 
由 中 科 院 声学 所 开始 了 计算 机 语 首 识别 的 研究。 在 此 之 后 ,有 天 专家 也 开始 扎 文 介绍 这 方 
面 的 工作 。 从 20 世纪 80 年 代 开 始 , 很 多 单位 陆续 参加 a 到 这 一 行列 中 来 ,它们 纷纷 采用 不 同 
的 方法 ,开展 了 从 最 初 的 特定 说 话 人 中 ,小 词汇 量 孤 立 词 识 别 ,到 非特 定 说 话 人 大 词汇 量 连 
绥 霹 音 识 别 的 研究 工作 。20 世纪 80 年 代 末 ,以 汉语 全 首 市 识别 作为 主攻 方 回 的 研究 已 经 
取得 了 相当 大 的 进展 ,一 些 汉 语 语 首 输 入 系统 已 同 实 用 化 迈进 。 四 达 技 术 开 发 中 心 、 星 河 公 
司 等 相继 推出 了 相应 的 实际 产品 。 清 华 大 学 .中科院 声学 所 在 无 限 词汇 的 汉语 听写 机 的 研 
制 上 获得 成 功 。20 世纪 90 年 代 初 ,四 达 技 术 开 发 中 心 又 与 哈 尔 演 工业 大 学 合作 推出 了 有 具 
有 自然 语言 理解 能 力 的 新 产品 。 在 国家 “863 计划 ”支持 下 ,清华 大 学 和 中 科 院 自动 化 所 等 
单位 在 汉语 听写 机 原理 样机 的 研制 方面 开展 了 单 有 成 效 的 工作 。 北 京 大 学 在 说 话 人 识别 方 
面 也 做 了 大 量 的 工作 。 

近年 来 , 随 肴 改 半 开放 的 不 断 进 行 ,我国 的 国际 地 位 与 日 俱 增 , 汉 场 声音 识别 越 来 越 受 
到 重视 ,国外 很 多 者 名 的 公司 都 在 国内 设立 了 研发 机 构 ,并 且 都 将 汉 场 声音 识别 作为 主攻 方 
回 之 一 。IBM 公司 于 1997 年 推出 了 汉 博 连续 语音 识别 系统 ViaVoice, 输 入 速度 平均 每 分 
钟 可 达 150 字 ,平均 最 高 识别 率 达 到 952 ,并 具有 ”自我 ?学 习 的 功能 。2000 年 发 布 的 
ViaVoice 于 福 版 ,用 户 可 以 通过 语音 导航 到 计算 机 曙 面 及 浏览 网 页 。1998 年 ,微软 
(Microsoft) 投资 8000 万 美元 在 中 国 筹建 微软 中 国 研 究 院 (2000 年 更 名 为 微软 亚洲 研究 
院 ) ,开发 的 重点 方向 之 一 就 是 语音 识别 。1998 年 , Intel 提出 了 基于 Intel 架构 发 展 语音 技 
术 的 构想 , 问 软 件 开发 厂商 提供 包括 信号 处理 库 、 识 别 库 、 图 像 处 理 库 在 内 的 高 性 能 语音 馈 
数 库 支持 。1999 年 ,Intel 和 L&H 公司 合作 ,推出 语音 识别 软件 开发 包 Spark3.0, 其 中 包 
括 Spark 语音 识别 引擎 和 软件 开发 工具 箱 。 微 软 也 推出 了 基于 . net 的 语音 识别 引擎。 
2011 年 苹果 公司 在 其 iphone 手机 上 率先 推出 了 乔 能 语音 助理 siri, 掀 起 了 语音 应 用 的 热 
潮 。 国 内 一 些 着 名 企业 也 投入 大 量 资 金 开 始 资 助 语音 识别 方面 的 饶 究 , 如 和 白 度 、 科 大 讯 飞 、 
阿里 忆 巴 寺 s 

尽管 声音 识别 技术 人 研究 已 经 取得 了 很 大 的 成 绩 , 但 到 目前 为 止 离 广 沁 的 应 用 疝 存 在 距 
离 。 很 多 因 系 影 啊 着 语音 识别 系统 的 性 能 ,如 实际 复杂 环境 中 的 育 景 噪声 .传输 通道 的 频率 
特性 .说话 人 生理 或 心理 情况 的 变化 ,以 及 应 用 领域 的 变化 等 都 会 导致 语音 识别 系统 性 能 的 
下 降 , 其 至 不 能 工作 。 人 研究 语音 识别 系统 项 健 性 (robustness) 问 题 受 到 了 人 研究 者 的 三 沁 重 
视 , 国 内 外 很 多 单位 都 开展 了 大 量 的 工作 。 但 到 目前 为 止 ,; 所 做 的 工作 大 都 是 针对 某 一 种 或 
两 种 影响 因 又 进行 补偿 的 人 研究 , 乏 合 考 虑 各 种 影响 因 系 补偿 方法 的 研究 还 相对 仿 少 。 

讲 首 识别 通常 是 指 能 识别 出 相应 的 请 首 内 容 , 除 此 之 外 , 它 还 有 一 种 特殊 的 形式 一 一 说 
话 人 人 识别。 说话 人 识别 不 必 识 别 出 语 首 信和 号 的 具体 内 容 , 而 只 要 鉴别 出 该 语音 是 哪个 说 话 
人 发 出 的 即 可 。 从 实现 的 技术 手段 上 看 ,说话 人 识别 和 语音 识别 一 样 ,都 是 通过 提取 场 音信 
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写 的 特征 ,并 建立 相应 的 参考 模 极 来 进行 分 类 判断 。 说 话 人 识别 问题 ,最 初 是 在 第 二 次 世界 
大 战 期 间 , 美 国 国防 部 问 贝尔 实验 室 提 出 的 课题 。 目 的 是 根据 针 听 到 的 电话 请 首 来 判断 说 
话 人 是 哪 一 位 德 蒜 融 级 将 领 ,这 对 分 析 当 时 的 德军 战略 部 闭 具 有 重要 的 意义 。 该 项 目 持 续 
进行 了 三 年 ,但 并 未 达到 预期 的 目的 。 

说 话 人 识别 研究 的 早期 工作 ,主要 集中 在 人 和 耳 听 辨 实验 和 探讨 听 音 识别 的 可 能 性 方面 。 
随 看 语 首 识别 研究 的 不 断 深 入 ,说 话 人 识别 研究 也 获得 了 突 飞 狐 进 的 发 展 。 语 首 识 别 中 很 
多 成 功 的 技术 ,如 矢量 量化 (vector quantization， VQ), 隐 马尔 科 夫 模型 等 都 被 应 用 到 说 话 
人 识别 中 。 

20 世纪 90 年 代 , Rose 等 提出 了 单 状态 的 RMM, 即 后 来 的 高 斯 混合 模型 (gaussian 
mixture model,GMM) , 它 是 一 个 项 健 的 参数 化 模型 。Matsui 等 比较 了 基于 连续 HMM 的 
说 话 人 识别 方法 ,发 现 识别 率 是 状态 和 混合 数 的 函数 。 同 时 ,识别 率 与 总 的 混合 数 有 很 章 的 
关联 性 ,但 与 状态 数 无 关 。 这 意味 着 不 同 状态 间 的 转移 信息 对 文本 无 关 的 说 话 人 系统 而 言 
是 没有 作用 的 ,因此 ,高 斯 混合 模型 GMM 得 到 了 与 多 状态 HMM 几乎 相同 的 识别 性 能 。 
下 是 上 述 工作 ,使 得 GMM 建 模 方法 在 说 话 人 识别 研究 中 得 到 了 越 来 越 多 的 重视 。 特 别 是 
Reynolds 等 对 高 斯 混合 模型 GMM 以 及 通用 背景 模型 (universal background model,UBM) 
的 详尽 介绍 后 ,由 于 GMM-UBM 具有 简单 有 效 ,以 及 具有 较 好 的 闫 健 性 等 特点 ,迅速 成 为 
当今 与 文本 无 天 的 说 话 人 识别 中 的 主流 扩 术 ,并 由 此 将 说 话 人 识别 技术 市 人 了 一 个 新 的 阶 
段 。20 世纪 90 年 代 男 一 项 重要 的 研究 工作 是 ,针对 说 话 人 确认 中 ,说 话 人 日 号 的 似 然 度 的 
得 分 变异 的 规整 技术 ,出 现 了 很 多 关于 得 分 规整 的 算法 ,比较 典型 的 如 基于 似 然 比 
(likelihood ratio) 和 后 验 概 浴 (a posteriori probability) 的 技术 。 为 了 降低 计算 规整 算法 的 
计算 复杂 性 ,相继 出 现 了 群 组 说 话 人 (cohort speakers) 等 方法 。 与 此 同时 ,说 话 人 识别 技术 
与 其 他 的 语音 研究 方向 的 结合 更 加 密切 ,比如 针对 对 话 / 会 议 中 包含 多 人 的 说 话 人 分 割 与 聚 
类 技术 ,音频 元 数据 (metadata) 的 检索 研究 等 也 得 到 了 很 多 研究 人 员 的 关注 。 

2000 年 以 来 ,各 种 新 的 说 话 人 识别 技术 层出不穷 ,如 文 持 回 量 机 和 GMM 的 结合 ,出 现 
了 一 系列 说 话 人 得 分 规整 的 新 方法 ,包括 Znorm、H-norm、T-norm、Ht-norm、C-norm、 
D-norm 和 AT-norm。 上 此 外 ,针对 信道 失 配 问题 ,研究 者 们 提出 说 话 人 模型 合成 方法 。 近 年 
来 ,又 提出 了 联合 因子 分 析 (Joint Factor Analysis) ,通过 将 说 话 人 所 在 的 空间 划分 为 说 话 
人 空间 和 和信 赴 空间 ,进而 能 提取 出 与 说 话 人 相关 的 特征 ,并 去 挥 与 信 站 相关 的 特征 。 在 此 基 
础 上 ,为 了 压 盎 说 话 人 特征 的 规模 ,人 研究 者 又 采用 一 个 总 变化 空间 来 代 蔡 上 述 两 个 空间 ,从 
而 提出 了 基于 i-vector 特征 的 方法 。 由 于 i-vector 方法 中 只 使 用 一 个 总 变化 空间 来 提取 特 
征 , 因 此 所 提取 出 的 特征 中 可 能 同时 包含 说 话 人 和 信道 的 影响 ,需要 对 其 进行 进一步 的 
信道 补偿 。 通 稼 是 采用 线性 判别 分 析 (linear discriminant analysis, LDAJ) 来 去 除 倩 道 的 
影响 。 

目前 ,说 话 人 识别 的 重点 已 经 从 实验 系统 转移 到 研究 针对 实际 应 用 面临 的 问题 。NIST 
从 1996 年 起 开始 举办 每 年 一 度 的 说 话 人 识别 评测 (speaker recognition evaluations,SRE ) 。 
从 其 评测 内 容 、 评 测 方式 的 演变 看 , 正 逐 步 贴近 实际 的 应 用 情况 。 例 如 ,麦克 风 的 种 类 越 来 
越 多 ,二 种 从 单纯 的 瑞 语 ,扩展 到 十 几 种 语言, 场景 也 从 简单 的 蛙 个 说 话 人 方式 扩展 到 多 个 
说 话 人 方式 。 应 该 指出 的 是 , 近 些 年 在 NIST 举办 的 说 话 人 测试 大 赛 中 ,识别 率 最 高 的 单 系 
统 是 基于 i-vector 的 系统 。 除 了 NIST 说 话 人 评测 之 外 ,其 他 机 构 也 组 织 过 类 似 的 评测 , 比 
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如 和 停 兰 NFI-TNO(Netherlands forensic institute-TNO human factors) 组 织 的 说 话 人 评测 ， 
主要 针对 司法 应 用 方面 的 说 话 人 识别 。 中 文 口 语 处 理会 议 也 在 2006 年 组 织 了 不 同 任务 单 
元 的 说 话 人 评测 。 虽 然 以 上 两 个 评测 的 规模 和 影 啊 力 不 如 NIST 评测 ,但 是 部 针对 具体 的 
应 用 语音 环境 ,通过 会 议 交 流 的 方式 ,开放 式 的 进行 算法 的 优势 对 比 和 分 析 , 不 同 程度 地 促 
进 了 技术 的 提高 和 进步 。 

目前 ,国外 已 经 有 了 一 些 成 熟 的 产品 。 如 AT&T 应 用 说 话 人 识别 技术 研制 出 了 智慧 
卡 , 已 应 用 于 日 动 提 于 机。 欧洲 电信 联盟 在 电信 与 金融 结合 领域 应 用 说 话 人 识别 技术 ,于 
1998 年 完成 了 CAVE 计划 ,在 电信 网 上 进行 说 话 人 识别 。 说 话 人 识别 技术 应 用 最 为 成 功 
的 例子 是 在 伊拉克 战争 期 间 , 院 达 姆 在 电视 上 发 表 讲 话 后 ,美国 FBIl 宣称 讲话 者 不 是 陕 达 
姆 本 人 ,而 德国 的 科学 家 应 用 说 话 人 识别 搁 术 证 实 讲话 的 人 确实 是 配 达 姆 。 从 后 来 的 情况 
看 ,德国 科学 家 的 判断 是 正确 的 。 随 着 Internet 的 发 展 ,网 络 环境 下 的 说 话 人 识别 技术 日 益 
受到 了 重视 ,已 成 为 当今 的 一 个 研究 热点 。 

就 语音 合成 技术 而 言 ,最 早 的 语音 合成 硕 是 1835 年 由 W. von Kempelen 发 明 , 经 威 斯 
顿 改进 的 机 械 式 的 会 讲话 的 机 妖 。 它 完全 模拟 人 的 发 音 生理 过 程 , 用 风 箱 模拟 来 日 肺 部 的 
空气 动力 ,气流 通过 特别 设计 的 哨 时 会 产生 语音 中 的 辅音; 气流 通过 形状 可 以 变化 的 模拟 
口腔 的 软 管 时 会 产生 元 音 。 风 箱 、 哨 和 软 管 三 部 分 机 械 配 合 起 来 就 可 以 产生 一 些 音节 和 词 。 
这 是 一 个 相当 完善 的 机 械 式 语音 合成 硕 。 最 早 的 电子 式 语 音 合成 硕 是 前 面 提 到 的 1939 年 
Dudley 发 明 的 声 码 天 , 它 不 是 机 械 地 模仿 人 发 音 的 生理 过 程 , 而 是 通过 电 了 于 线路 来 实现 基 
于 语音 产生 的 源 / 滤 波 冀 理论 ; 其 中 声 源 包括 产生 清音 的 噪声 源 和 产生 浊音 的 周期 脉 神 声 
源 ,它们 分 别 用 噪声 发 生 大 和 张弛 振 功 天 来 实现 ,而 声 拓 的 滤波 作用 是 通过 电子 通 这 沽 流 毅 
来 实现 的 ,滤波 带 的 中 心 频率 是 用 键盘 上 的 十 个 葬 键 来 控制 。 

现代 的 语音 合成 更 部 是 利用 计算 机 来 实现 的 。 从 20 世纪 70 年 代 末 开始 ,出 现 了 文 - 语 
转换 (text to speech, 工 TS) 系 统 的 研究 ,其 特点 是 用 最 基本 的 声音 单元 ,如 音 际 、 双 音 系 . 半 
音节 或 音节 作为 合成 单元 ,建立 语音 库 , 通 过 合成 单元 拼接 而 达到 无 限 词汇 的 合成 。 为 了 保 
证 合成 声音 具有 民 好 的 音质 ,在 这 种 系统 中 除 博 音 库 外 ,还 有 一 个 相当 庞大 的 规则 库 ,以 实 
现 对 合成 语音 的 音 段 特征 和 超 音 段 特征 的 控制 。20 世纪 80 年 代 , 由 D. Klatt 设计 的 串 / 并 
联 混 合 型 共振 峰 合 成 器 是 20 世纪 最 有 代表 性 的 工作 。 它 可 以 设置 和 控制 多 达 八 个 共振 峰 ， 
可 模拟 发 音 过 程 中 的 声 道 共振 ,而且 还 设 有 单独 的 滤波 融 来 模拟 蜡 腔 和 气管 的 共振 。 其 中 ， 
元 音 和 省 辅音 的 产生 用 串联 通 所 来 实现 , 清 辅音 的 产生 用 并 联通 这 来 实现 。 此 外 ,这 种 合成 
化 还 可 以 对 声 源 做 各 种 选择 和 调整 ,以 模拟 不 同 的 嗓音 。 它 共 可 以 产生 七 种 不 同音 色 的 博 
痛 , 包 括 模 拟 不 同年 龄 ,性 别 和 个 性 的 说 话 人 的 请 痛 。 丽 典 呈 家 理工 和 学院 Fant 实验 室 在 多 
请 种 文 - 硬 转 换 系 统 饶 究 方面 也 做 出 了 突出 的 成 绩 , 完 成 了 瑞 语 ,法语 \、 珊 典 语 、 西 班 址 语 和 
分 兰 语 的 文 - 语 转 换 系 统 。 

20 世纪 90 年 代 末 ,日 本 的 研究 者 提出 了 一 种 多 样本 、 不 等 长 语音 拼接 合成 技术 
PSOLA。 瑟 在 堵 音 库 中 存放 了 大 量 的 贞 人 坪 音 样本 ,通过 选择 合适 的 拼接 语音 片 段 来 实现 
高 质量 的 合成 声音 。 在 这 项 技术 中 ,语音 合成 问题 被 简化 为 如 何 建立 一 个 在 声音 学 上 充分 
罗兰 的 墙 音 库 , 如 何 从 培 音 库 中 选择 合适 的 坪 音 片段 来 拼接 ,以 及 如 何 对 声音 片段 之 间 的 扩 
接 部 分 做 适当 的 调整 。 

20 世纪 90 年 代 中 期 , 随 看 声音 识别 中 统计 建 模 方 法 的 日 益 成 熟 ,研究 者 提出 了 可 训练 
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的 语音 合成 方法 ,其 基本 思想 是 基于 统计 建 模 和 机 需 学 习 的 方法 ,根据 一 定 的 语音 数据 进行 
训练 并 快速 构建 合成 系统 。 随 着 声学 合成 性 能 的 提高 ,在 此 基础 上 又 发 展 出 统计 参数 语音 
合成 方法 ,其 中 以 HMM 的 建 模 与 参数 生成 合成 方法 为 代表 。 

基于 HMM 的 参数 语音 合成 方法 分 为 训练 与 合成 两 个 阶段 。 在 训练 阶段 ,主要 从 训练 
语音 数据 中 提取 基 频 和 多 维 频 谱 参 数 , 然 后 训练 一 组 上 下 文 相关 音素 对 应 的 HMM 模型 ， 
保证 相对 该 模型 的 训练 数据 似 然 函数 值 最 大 。 一 般 使 用 多 空间 概率 分 布 (multi-space 
probability distribution,; MSD) 来 进行 基 频 参数 的 建 模 ,通过 训练 决策 树 来 进行 上 下 文 扩 展 
模型 的 聚 类 ,以 提高 数据 黎 玖 情况 下 训练 得 到 的 模型 参数 的 项 健 性 ,并 防止 过 训练 ; 接着 使 
用 训练 得 到 的 上 下 文 相 关 HMM 进行 状态 的 切 分 ,并 且 训 练 状态 的 时 长 概率 模型 用 于 合成 
时 的 时 长 预测 。 在 合成 阶段 , 痛 先 依据 文本 分 析 的 结案 和 聚 类 决 朱 树 , 找 出 征 合成 语句 所 对 
应 的 了 MM 模型 。 然 后 基于 最 大 似 然 准则 ,并 且 使 用 动态 参数 约束 来 生成 每 帧 对 应 的 最 优 
静态 特征 回 量 。 最 后 将 生成 的 声学 参数 送 和 人 参数 合成 郑 合 成 语音 。 基 于 HMM 的 参数 语 首 合 
成 方法 可 以 在 不 需要 人 工 干 预 的 情况 下 ,日 动 快速 地 构建 合成 系统 ,而 且 对 不 同 发 音 人 .不同 
发 首 风 格 \、 不 同 语种 的 依赖 性 非常 小 。 

近年 来 , 随 着 深度 神经 网 络 (DNN) 在 语音 识别 中 的 成 功 应 用 ,基于 DNN 的 统计 声学 建 
模 方法 也 成 为 语音 合成 领域 的 研究 热点 。 与 基于 HMM 模型 和 决策 树 聚 类 的 高 斯 状态 分 
布 的 参数 语音 合成 方法 相 比 ,基于 DNN 的 方法 能 对 高 维 声 学 特征 中 各 维 间 的 相关 性 ,以 及 
输入 文本 特征 与 输出 声学 特征 间 的 复杂 映射 天 系 进 行 更 精细 的 建 模 ,因而 能 有 效 改 进 合成 
语音 的 音质 。 

目前 ,有 限 词汇 的 语音 合成 器 已 经 在 自动 报时 、 报 警 、 报 站 .电话 查询 服务 、 智 能 玩具 等 
方面 得 到 了 广泛 的 应 用 。 从 研究 进展 上 看 ,很 多 语音 合成 系统 都 具有 较 高 的 可 懂 度 ,但 在 月 
然 度 研究 方面 还 有 很 大 的 研究 空间 。 提 高 语音 合成 的 月 然 度 是 当今 研究 的 热点 。 

我 国 的 语音 合成 研究 是 从 20 世纪 80 年 代 开 始 的 ,中 科 院 声学 所 .中科院 目 动 化 所 、 社 
科 院 语言 所 较 早 地 开展 了 这 方面 的 工作 。 早 期 的 工作 主要 是 参数 合成 ,尤其 是 共振 峰 合成 
及 线性 预测 合成 。20 世纪 90 年 代 初 开始 ,真实 语音 的 波形 拼接 技术 最 早 由 清华 大 学 应 用 
到 汉语 合成 中 来 ,合成 的 语音 清晰 度 明 显 好 于 参数 合成 。 之 后 声学 所 将 可 以 调节 韵律 参数 
的 波形 拼接 合成 技术 PSOLA 引入 汉 请 合成 ,并 提出 了 一 套 韵 律 控 制 方法 ,使 合成 语音 的 质 
量 有 突破 性 的 提高 。 当 前 的 汉语 语音 合成 系统 中 ,很 多 单位 也 在 开展 基于 HMM 参数 语 首 
合成 方法 的 研究 ,如 清华 大 学 .中国 科 技 大 学 .微软 亚洲 研究 院 ,IBM 中 国人 研 究 中 心 , 摩 托 罗 
拉 中 国 研究 中 心 等 ,尤其 是 中 国 科 技 大 学 及 科大 讯 飞 公司 近年 来 在 耕 干 次 国际 语音 评测 中 
取得 了 突出 的 成 绩 , 其 研发 的 语音 合成 系统 已 广 为 使 用 。 

怠 声音 编码 技术 而 言 , 它 的 人 研究 也 是 始 于 1939 年 Dudley 发 明 的 再 人 码 带 ,但 是 耳 到 20 
世纪 70 年 代 中 期 ,除了 脉冲 编码 调制 (pulse coding modulation,PCM) 和 上 月 适应 差分 脉冲 编 
码 调 制 (ADPCM) 取 得 较 好 的 进展 之 外 ,中 低 比 特 率 语音 编码 一 直 没 有 大 的 突破 。 自 20 世 
纪 70 年 代 起 ,国外 就 开始 研究 计算 机 网 络 上 的 语音 通信 ,当时 主要 是 基于 ARPANET 网 络 
平台 进行 的 研究 和 实验 。1974 年 ,首次 分 组 语音 实验 是 在 美国 西海 岸 南 加 州 大 学 的 信息 科 
学 人 研究 所 和 东海 尾 的 林肯 实验 室 之 间 进 行 , 语 音 编 码 为 9. 6kb/s 的 连续 可 变 和 斜率 增 量 调制 。 
1974 年 12 月 ,线性 预 训 编 但 CLPC) 声 码 天 首次 用 于 分 组 语音 通信 实验 , 数 但 率 为 3. 5kb/s。 
1975 年 1 月 ,首次 在 美国 实现 了 使 用 LPC 声 码 器 的 分 组 语音 电话 会 议 。1977 年 ,Internet 
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工程 任务 组 (Internet Engineering Task Force,IETF) 颁 发 了 关于 分 组 话音 通信 协议 的 讨论 
文件 RFC741。 因 为 20 世纪 70 年 代 后 期 已 推出 带宽 可 达 Mb/s 量 级 的 价格 较为 低廉 的 以 
太 网 ,所 以 20 世纪 80 年 代 的 研究 主要 集中 在 局 域 网 上 的 语音 通信 。 最 早 的 实验 是 由 英国 剑 
桥 大 学 于 1982 年 在 10Mbys 的 剑桥 环形 网 上 进行 的 。 基 后 ,意大利 .美国 .英国 等 许多 国家 的 
研究 者 在 总 线 型 局 域 网 , 令 牌 环 网 .3Com 以 太 网 上 进行 实验 ,深入 研究 了 分 组 时 延 的 原因 、 
分 组 语音 通信 协议 、 链 路 利用 率 和 语音 分 组 同步 等 问题 ,并 试制 了 电话 网 和 局 域 网 的 接口 模 
块 。1980 年 美国 政府 公布 了 一 种 2. 4kb/s 的 线性 预测 编码 标准 算法 LPC-10, 这 使 得 在 普 
通电 话 带 宽 信 道中 传输 数字 电话 成 为 可 能 。1988 年 美国 又 公布 了 一 个 4. 8kbys 的 码 激励 
线性 预测 编码 CCELP) 语 音 编 码 标准 算法 ,欧洲 推出 了 一 个 16kb/s 的 规则 脉冲 激励 
(RELP) 线 性 预测 编码 算法 ,这 些 算法 的 音质 都 能 达到 很 高 的 质量 ,而 不 像 单 脉冲 LPC 声 码 
盘 的 输出 博 音 那样 不 为 人 们 所 接受 。 进 和 20 世纪 90 年 代 , 随 着 Internet 在 全 球 范 于 内 的 
兴起 和 诸 音 编码 技术 的 发 展 ,IP 分 组 语音 通信 技术 获得 了 突破 性 的 进展 和 实际 应 用 。 最 初 
的 应 用 只 是 在 网 络 游戏 等 软件 包 中 传送 和 存储 语音 信息 , 它 对 语音 质量 要 求 低 , 相 当 于 机 融 
人 的 声音 效果 。 其 后 计算 机 厂商 纷纷 推出 对 等 方式 或 客户 机 一 服务 冀 方 式 语 首 通信 人 免费 软 
件 ,它们 利用 计算 机 中 的 声卡 对 语音 进行 打包 传送 ,语音 一 般 不 进行 压缩 。20 世纪 90 年 代 
中 期 开始 ,有 关 广 商 开 始 开发 用 于 局 域 网 语音 通信 的 网 关 产 品 , 实 现 局 域 网 内 PC 间 的 语音 
通信 以 及 经 PBX 和 外 界 电话 的 通信 ,但 这 些 产品 都 采用 内 部 协议 规范 。20 世纪 90 年 代 中 
期 还 出 现 了 很 多 被 广泛 使 用 的 语音 编码 国际 标准 ,如 数码 率 为 5.3/6.4kb/s 的 G.723.1、 数 
码 率 为 8kb/s 的 G.729 等 。 此 外 ,也 存在 着 各 种 未 形成 国际 标准 ,但 数码 率 更 低 的 成 熟 的 
编码 算法 ,有 的 算法 数码 率 甚至 可 以 达到 1. 2kb/s 以 下 ,但 仍 能 提供 可 懂 的 语音 。 

20 世纪 90 年 代 后 期 起 , 艇 入 式 请 音 编 码 作为 一 种 新 兴 的 语音 编码 技术 ,逐步 成 为 本 领 
域 的 研究 热点 之 一 。 骨 入 式 语 音 编码 又 称 为 可 分 级 性 语音 编码 ,在 其 编码 码 流 中 , 低 码 率 的 
码 字 包含 ( 藤 入 ) 在 高 码 率 的 码 字 中 ,作为 高 速率 工作 的 核心 码 元 。 也 即 ,一 个 散 入 式 的 码 流 
可 以 分 解 成 儿 个 低级 的 码 流 , 它 们 的 码 率 逐次 递减 ,但 仍然 能 代表 原来 的 声音 信号 ,只 是 在 
不 同 程度 上 损失 了 一 些 细 节 。 当 线路 容量 足够 时 ,可 高 速率 传输 以 保证 较 高 的 语音 质量 ; 
当 遇 到 线路 拥塞 时 ,可 将 码 字 中 非 核 心 码 元 丢弃 ,以 低速 率 较 差 的 语音 质量 工作 ,保证 连续 
性 。 租 入 式 的 码 流 结构 不 仅 可 以 有 效 解 决 由 于 分 组 丢失 所 引起 的 合成 语音 质量 下 降 的 问 
题 ,而 且 可 以 提供 多 种 编码 速率 ,以 适应 不 同 种 类 的 通信 终端 。 它 以 一 个 统一 的 能 够 提供 多 
种 速率 输出 的 编 解 码 系 统 代 替 了 以 往 众 多 的 固定 速率 编码 算法 , 免 去 了 不 同 种 类 终端 通信 
刻 来 的 不 便 。 

目前 的 语音 编码 研究 主要 朝 两 个 方 回 发 展 : 一 是 军 带 低速 率 方向 ,目标 是 提高 语音 的 
可 懂 度 ,主要 应 用 于 军事 等 短波 通信 和 领域 ;二 是 宽带 高 速率 分 层 编码 方 回 ,目标 是 提高 人 类 
对 音质 的 需求 ,主要 应 用 于 基于 包 交 换 的 移动 互联 网 中 。 它 既 可 以 对 语音 进行 编码 ,也 可 以 
对 音频 进行 编码 ,但 对 音频 编码 时 ,需要 对 输入 音频 进行 分 类 处 理 后 才 来 决定 编码 框 碟 ， 
MPEG 及 ITU 都 制定 了 相关 标准 ,目前 最 为 成 功 的 是 由 华为 公司 主导 的 EVS(enhanced 
voice service) 编 码 毅 。 

由 于 语音 编码 产品 化 的 过 程 相对 来 说 比 语音 识别 容易 些 , 因 此 其 研究 成 果 能 很 快 转 问 
实际 应 用 ,对 通信 事业 的 发 展 起 了 重要 的 推动 作用 。 
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1.2 语音 信号 处 理 的 应 用 


语音 信和 号 处 理 技术 是 计算 机 智能 接口 与 人 机 交互 的 重要 手段 之 一 。 就 语音 识别 技术 而 
言 ,其 基本 任务 是 将 输入 语音 转化 为 相应 的 文本 或 命令 。 语 音 识 别 的 市 场 前 景 广泛 ,在 一 些 
应 用 领域 中 正 迅 速成 为 一 个 关键 的 具有 竞争 力 的 技术 。 如 在 声控 应 用 中 ,计算 机 识别 输入 
的 语音 内 容 , 并 根据 内 容 来 执行 相应 的 动作 ; 这 些 应 用 包括 声控 电话 转换 ,声控 坪 音 拨号 系 
统 .声控 千 能 玩具 、 信 息 网 络 查询 ,家庭 服务 .宾馆 服务 .旅行 社 服 务 、 医 疗 服务 .银行 服务 、 股 
票 查询 服务 .工业 控制 等 。 语 音 识 别 也 可 用 于 将 文字 以 口授 的 方式 输入 的 计算 机 中 , 即 广泛 
开展 的 听写 机 研究 ,如 声控 打字 机 等 。 语 音 识 别 技术 还 可 以 用 于 自动 口语 翻译 ,通过 将 口语 
识别 技术 、 机 絮 翻 详 技术 、 语 首 合 成 技术 等 结合 ,可 将 一 种 语言 输入 的 请 首 翻 详 为 男 一 种 语 
言 的 语音 输出 ,实现 跨 语言 的 交流 ,如 美国 .日 本 、 欧 洲 ,包括 中 科 院 自动 化 所 参加 的 
CSTAR 计划 ,重点 开展 多 堵 种 口语 自动 翻译 人 研究 。 随 着 无 处 不 在 计算 技术 的 发 展 ,各 种 移 
动 计算 设备 、 可 穿戴 计算 设备 日 益 增 多 ,对 这 些 设备 ,其 尺寸 越 来 越 小 ,并 且 要 求 在 行走 
或 驾驶 时 进行 信息 的 输入 ,传统 的 键盘 输入 方式 已 不 能 满足 其 方便 、 目 然 ,在 行进 中 有 效 
地 输入 信息 的 需要 ,采用 语音 识别 技术 可 以 解放 用 户 的 手眼 ,有 效 地 改变 人 机 交互 手段 。 
如 目前 在 一 些 手 持 计 算 机 、 手 机 等 甬 人 式 电 子 产 品 上 已 经 使 用 场 音 识别 技术 来 进行 
控制 。 

对 说 话 人 识别 技术 ,近年 来 已 经 在 安全 加 密 、 银 行 信息 电话 查询 服务 等 方面 得 到 了 很 好 
的 应 用 。 此 外 ,在 公安 机 关 破 案 和 法 庭 取 证 方面 也 发 挥 着 重要 的 作用 。 

就 语音 合成 而 言 , 它 已 经 在 许多 方面 得 到 了 实际 应 用 ,发 挥 了 很 好 的 社会 效益 ,如 公共 
交通 中 的 月 动 报 站 .各 种 场合 的 目 动 报时 .月 动 告 次 .电话 目 动 查询 服务 .文本 校对 中 的 语音 
提示 等 。 在 电信 声讯 服务 领域 的 镶 能 电话 查询 系统 中 ,采用 语音 合成 技术 可 以 解决 以 往 通 
过 电话 只 能 进行 静态 查询 的 不 足 ,满足 海量 数据 和 动态 查询 的 需求 ,可 查询 一 些 动态 信息 ， 
如 股票 成绩、 节目 、 热 点 问题 、 机 场 、 和 车站、 购物 市场 .售后 服务 等 信息 ; 也 可 用 于 基于 个 人 
计算 机 的 办 公教 学 、 娱 乐 等 乔 能 多 媒体 软件 ,如 文稿 校对 语音 学 习 ( 帮 助 外 国人 残疾 人 、 
儿童 等 学 习 语 言 ) 、 语 音 秘书 .语音 书 籍 、 教 学 软件 、 语 音 玩 具 等 。 通 过 与 互联 网 的 结合 ,可 以 
获取 有 声 的 E-mail、 进 行 网 上 信息 的 有 声 获 取 及 进行 网 上 语音 聊天 。 将 语音 合成 技术 与 机 
硕 翻 详 技 术 相 结合 ,可 以 实现 语音 翻 详 ; 与 图 像 技 术 相 结合 ,可 以 输出 视觉 语音 (visual 
speech ) 。 

怠 语 音 编 码 技 术 而 言 , 它 的 根本 作用 是 使 语音 通信 数字 化 ,目前 已 广泛 应 用 于 数字 通信 
系统 、 移 动 无 线 通信 、 保 密语 音 通信 等 方面 。 语 音 编 码 技术 也 可 应 用 于 呼叫 服务 ,如 数字 录 
音 电 话 .语音 信箱 .电子 留言 短 等 。 与 模拟 语音 通信 系统 相 比 ,数字 语音 通信 系统 具有 抗 干 
扰 性 强 ,保密 性 好 、 吻 于 集成 化 等 优点 。 在 当前 正在 连 描 兴起 的 移动 通信 中 ,语音 编码 技术 
是 其 中 非常 重要 的 支撑 技术 。 

随 着 信息 技术 的 不 断 发 展 ,尤其 是 网 络 技术 的 日 益 普 及 和 完善 ,语音 信号 处 理 技术 正 发 
挥 着 越 来 越 重 要 的 作用 ,并 且 出 现 了 一 些 新 的 研究 方向 。 

基于 语音 的 信息 检索 是 随 着 网 络 技术 及 面 癌 数字 图 书馆 技术 的 发 展 而 出 现 的 新 的 应 用 
技术 。 传 统 的 信息 检索 技术 大 多 是 基于 文本 信息 的 ,诸如 雅 席 、 谷 歌 等 各 种 搜索 引擎 ,就 是 
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这 方面 的 和 型 应 用 。 随 看 语音 识别 拉 术 的 不 断 发 展 和 完善 ,基于 声音 识别 的 信息 检索 扩 术 
正成 为 当今 的 研究 热点 。 

随 着 Internet 网 络 技术 的 迅速 发 展 , 出 现 了 Internet 电话 技术 , 它 是 一 种 用 VolP(voice 
over internet protocol) 技 术 实 现 的 通过 TCP/IP 网 络 , 而 不 是 传统 的 电话 网 络 来 传输 语 首 
的 新 的 通信 方式 ,通常 称 为 IP 电话 技术 。 对 这 种 经 过 数据 压缩 ,并 经 过 网 络 以 数据 包 形 式 
传输 后 的 语音 进行 识别 ,与 传统 的 语音 识别 技术 有 着 很 大 的 不 同 , 这 提出 了 一 个 新 的 研究 课 
题 , 即 网 络 环境 下 的 语音 识别 问题 , 它 在 电子 商务 和 国防 军事 应 用 领域 有 着 广阔 的 应 用 前 
景 。 而 随 着 手持 计算 机 、 手 机 等 电子 设备 的 迅猛 发 展 ,研制 开发 这 些 设备 上 嵌入 式 的 请 音 识 
别 算法 越 来 越 引起 人 们 的 重视 ,目前 已 经 出 现 了 一 些 可 用 语音 识别 进行 声音 拨号 ,以 及 口述 
关键 词 进行 信息 查询 的 手机 ,这 类 技术 的 不 断 完善 对 移动 计算 技术 的 发 展 有 着 重要 的 
意义 。 

语音 训练 与 校正 技术 也 是 近年 来 的 一 个 重要 研究 方向 。 当 今 社 会 越 来 越 多 的 人 ,和布 剖 
学 习 和 和 营 握 其 他 的 非 母 请 语言 ,以 利于 更 方便 地 进行 交流 。 然 而 , 坪 言 不 通 往往 成 为 交流 的 
最 大 障碍 。 因 此 ,语言 学 习 已 成 为 当今 教育 领域 的 一 个 热点 。 实 践 证 明 , 采 用 传统 的 课堂 教 
学 对 于 学 习 一 门 非 母语 语言 来 说 是 远 远 不 够 的 。 自 学 是 一 种 有 效 的 途径 , 它 具 有 不 受 时 间 
地 点 限制 .灵活 方便 等 特点 。 随 着 计算 机 技术 的 迅速 发 展 , 一 种 称 为 计算 机 辅助 语言 学 习 
(computer-aided language learning,CALL) 的 技术 应 运 而 生 ; 而 伴随 春 声音 识别 技术 的 进 
步 , 人 们 开始 研究 进行 辅助 发 音 学 习 的 CALL 技术 。 在 发 音 学 习 中 ,有 效 地 反馈 是 必 不 可 
少 的 一 个 重要 环 市 。 在 课 特 教学 中 ,教师 是 一 个 有 效 的 反馈 源 ,而 传统 的 发 育 日 学 中 ,要 么 
是 没有 任何 反馈 ,要 么 就 是 反馈 最 终 还 得 依赖 于 学 习 痢 日 号 的 判断 能 力 , 如 利用 复读 机 学 
习 发 音 时 ,学 习 者 只 能 依 徘 自己 的 感知 能 力 去 比较 其 发 音 与 标准 发 音 的 差别 ,从 而 进行 
发 音 的 修正 。 如 果 利 用 辅助 发 音 学 习 的 CALL 系统 ,学 习 者 就 可 以 随时 获得 有 效 的 反 
局 ,包括 分 值 或 等 级 等 简 涪 卫 观 的 形式 ,图 谱 或 口 形 等 具体 形 银 的 形式 ,以 及 和 耳 接 的 指 呈 
性 建议 。 

语种 识别 (language identification) 也 是 近年 来 新 出 现 的 研究 方向 , 它 是 通过 分 析 处 理 

-个 二 音 片段 以 判别 其 所 属 语言 的 种 类 ,本质 上 也 是 语音 识别 的 一 个 方面 。 由 于 世界 上 的 
不 同 语种 间 有 看 多 种 区 别 性 特征 ,如 音 际 集合 . 音 位 序列 .音节 续 构 .前 律 特 征 、. 词汇 分 类 、 博 
法 及 语义 网 络 等 ,所 以 在 目 动 语种 识别 中 有 多 种 可 以 利用 的 特征 。 对 于 一 个 语种 识别 系统 ， 
尼 和 请 首 识别 系统 写 说 话 人 识别 系统 有 看 很 多 相似 之 处 ,如 部 要 经 过 数字 化 ,特征 提取 、 模 
式 匹 配 等 过 程 。 博 种 识别 可 以 应 用 于 多 博 言 声音 识别 的 前 病 处 理 , 在 信息 检索 .车 事 领 域 和 
国家 安全 事务 中 有 着 重要 的 应 用 。 

基于 博 音 的 情感 处 理 研 究 是 当今 一 个 重要 的 全 究 方 各 。 在 人 与 人 的 交流 中 ,除了 言 博 
言 轧 外 , 非 言 请 信息 也 起 看 非常 重要 的 作用 。 随 着 计算 机 技术 的 迅速 发 展 , 人 机 交流 变 得 越 
来 越 普 志 ,计算 机 正成 为 日 甫 生活 工作 中 的 得 力 助 手 。 为 使 人 机 交流 更 目 然 . 更 人 性 化 ,十 
分 有 必要 进行 人 机 非 言 场 交 流 方 式 的 研究 。 尽 管 人 们 早已 认识 到 非 言 场 交 流 的 重要 性 ,但 
时 至 今日 ,大 多 数 人 研究 还 仅仅 是 基于 视 沉 信息 的 工作 ,如 面部 表情 识别 .手势 识别 等 。 声 音 
作为 语言 的 声音 表现 形式 ,是 人 类 交流 信息 最 日 然 、, 最 有 效 、 最 方便 的 手段 。 人 类 的 语 首 中 
不 仅 包 售 了 二 言 笠 信 息 , 同 时 也 包含 了 人 们 的 感情 和 情绪 等 非 言 场 信息 。 例 如 ,同样 一 名 
话 ,往往 由 于 说 话 人 的 情感 不 同 , 其 意思 和 给 听 者 的 感觉 就 会 不 同 。 传 统 的 语 首 处 理 系 统 仪 
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仅 着 眼 于 语音 词汇 传达 的 准确 性 ,而 完全 忽视 了 包 全 在 语音 信号 中 的 情感 因 系 ,所 以 它 只 是 
反映 了 信息 的 一 个 方面 。 直 到 近年 来 ,人 们 发 现 由 于 情感 和 态度 所 引起 的 变化 对 语音 合 , 
语音 识别 ,说话 人 确认 的 影响 较 大 , 才 过 步 引 起 了 人 们 的 重视 。 目 前 许多 人 研究 者 名 在 人 怪 力 于 
研究 情感 对 语音 的 影 啊 ,以 及 情感 状态 下 语音 信号 处 理 的 有 效 方法 ， 


1.3 ”语音 信号 处 理 的 总 体 结构 


从 忆 体 上 看 , 语 首 信号 处 理 过 程 可 以 用 一 个 统一 的 框架 来 表示 ,其 第 构 如 图 1-1 所 示 。 


传输 解压 红 Ch 


语音 输出 


语音 编码 合成 


语音 竹 入 


模式 匹配 上 别 结 未 


图 1-1 请 音信 号 处 理 的 总 体 结构 框图 


从 这 个 上 总体 结构 可 以 看 出 : 无 论 是 语音 识别 ,还 是 语音 编码 与 合成 ,输入 的 语音 信和 号 
先 要 进行 预 处 理 , 对 信号 进行 适当 放大 和 增益 控制 ,并 进行 反 混 登 滤 小 来 消除 工 频 信号 的 干 
扰 ; 然后 进行 数字 化 ,将 模拟 信和 号 转化 为 数字 信号 ,便于 用 计算 机 来 处 理 ; 接 春 进行 特征 扣 
取 , 用 反映 语音 信号 特点 的 奢 干 瑚 数 来 代表 语 首 。 在 此 之 后 ,根据 任务 的 不 同 ,采取 不 同 的 
处 理 办 法 。 对 语音 识别 技术 , 它 分 为 两 个 阶段 : 训练 阶段 ,将 用 特征 参数 形式 表示 的 语音 信 
号 进行 相应 的 处 理 , 获 得 表示 识别 基本 单元 共性 特点 的 标准 数据 ,以 此 构成 和 参考 模板 ,将 所 
有 能 识别 的 基本 单元 的 参考 模板 结合 在 一 起 形成 参考 模式 库 ; 识别 阶段 ,将 每 识别 的 语音 
经 特征 提取 后 逐一 与 参考 模式 库 中 的 各 个 模板 按 某 种 原则 进行 比较 , 找 出 最 相像 的 参考 模 
板 所 对 应 的 发 音 , 即 为 识别 结果 。 对 语音 编码 与 合成 报 术 ,部 是 将 语音 信号 进行 某 种 压 
缩 处 理 ; 如 末 是 博 首 编 伺 , 则 对 编 乌 后 的 语 首 信号 进行 传输 ,在 接收 疾 进 行 解压 绒 回 放 播 
出 ; 如 东 是 语音 合成 , 则 对 编码 后 的 增 音 信号 进行 存储 , 待 青 要 的 时 候 进 行 解压 缩 回 放 
播 出 。 

本 书 在 后 续 革 三 中 将 以 上 述 忆 体 结 构 为 线 夫 ,从 共性 的 技术 到 个 性 的 特点 , 束 各 部 分 的 
具体 内 容 进 行 充分 地 展开 和 详细 地 介绍 。 
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CHAPTER 2 


及 产生 模型 


在 全 究 和 分 析 各 种 请 音信 号 处 理 拉 术 之 前 ,必须 了 解 有 关 增 音信 号 的 一 些 基本 特性 。 
为 了 对 二 音信 号 进行 数字 处 理 , 需 要 建立 一 个 能 够 精确 摘 述 二 音 产生 过 程 和 语音 全 部 特征 
的 数学 模型 , 即 根据 博 音 的 产生 过 程 建立 一 个 既 实 用 又 便于 分 析 的 语音 信号 模型 。 本 章 将 
讨论 这 些 问题 。 

堵 音 是 在 说 话 人 和 了 听 肴 之 间 互 相传 递 的 ,传递 的 妹 介 是 声波 。 说 话 人 的 上 友 音 硕 官 做 出 
发 音 动 作 ,接着 空气 振动 形成 声波 ,声波 传 到 听 者 的 耳 打 里 ,立即 引起 听 者 的 听觉 反应 ,语音 
的 传递 就 是 这 样 的 一 个 过 程 。 其 中 发 音 动作 属于 生理 现象 ,空气 振动 属于 物理 现象 ,而 听觉 
反应 属于 心理 现象 。 

从 语音 的 传递 过 程 出 发 来 研究 霹 音 ,就 产生 了 语音 学 的 三 个 分 文 : 由 发 音 语 音 学 
(articulatory phonetics)。 发 首 语 首 学 是 最 早 发 展 起 来 的 语音 学 , 它 的 目的 是 从 生理 的 角度 
研究 语音 。 在 没有 仪 疾 的 时 候 , 通 常 只 能 直接 观察 发 音 副 官 的 动作 来 分 析 语 音 。 由 于 生理 
活动 不 能 完全 依靠 直观 分 析 , 因 而 人 们 制造 出 一 些 仪 硕 来 进行 辅助 研究 。 这 样 直观 分 析 和 
仪 盖 分 析 的 结合 ,就 能 够 清楚 地 认识 语音 的 发 音 部 位 和 发 痛 方 法 。 名 再 学 语音 学 (acoustic 
phonetics)。 再 学 语 首 学 是 在 20 世纪 40 年 代 开 始 发 展 起 来 的 学 科 。 它 的 目的 是 从 再 学 角 
度 人 研究 语音 的 物理 性 质 , 同 时 考察 语音 物理 性 质 和 发 首 颖 官 之 间 的 关系 。 随 着 “频谱 仪 ” 
(sound spectrograph) ,以 及 其 他 电子 声学 仪 硕 的 发 明 ,再 学 语 首 学 也 发 展 迅 速 , 人 们 对 语音 
的 声学 性 质 的 认识 也 不 断 次 入 。 于 是 ,进一步 出 现 了 声音 模拟 .声音 合成 以 及 语音 识别 等 研 
究 。( 昕 向 语音 学 和 心理 语言 学 (auditory phonetics and psycholinguistics) 。 听 筑 霹 音 学 
和 心理 语言 学 是 较 新 的 学 科 。 因 为 语言 的 传递 从 大 脑 开 始 , 又 到 大 脑 结束 ,或 者 说 ,语言 的 
传递 起 点 和 终点 都 在 大 脑 ,所 以 听觉 语音 学 和 心理 语言 学 就 以 大 脑 作 为 研究 对 象 。 它 的 目 
的 是 要 探索 大 脑 通过 什么 步骤 或 者 方式 来 处 理 语音 的 发 出 和 接收 ,以 及 语言 信息 又 是 以 
什么 形式 在 大 脑 的 什么 部 位 存储 起 来 。 声 音 到 达 大 脑 的 第 一 关 是 人 耳 , 即 听觉 系统 的 起 
点 在 人 耳 ,因此 听 筑 声音 学 和 心理 博 言 学 还 要 研究 人 耳 的 构造 ,以 及 人 了 有 耳 是 如 何 传 违 声 
波 的 。 

本 草 自 先 对 语 痛 的 产生 过 程 及 人 耳 的 听觉 过 程 进行 分 析 , 接 看 给 出 传统 的 线性 请 首 ， 
生 模 型 ,以 及 目前 厂 沁 受到 重视 的 非 线 性 二 痛 产生 模型 ,这 些 部 是 从 事 博 痛 信 号 处 理 研 究 的 
基础 知识 。 


第 2 章 ” 语 首 信 号 的 声学 基础 及 产生 模 孚 |l 萝 15 


2.1 语音 信号 的 产生 


语 首 信 号 产生 过 程 分 为 如 下 几 个 阶段 ; 首先 ,说 话 人 在 头脑 中 产生 想 要 用 语言 表达 的 
信息 ,人 然后 将 这 些 信息 转换 成 博 言 编 但 ,即将 这 些 信 息 用 其 所 包 合 的 音 系 序列 .韵律 、 啊 度 、 
基 首 周期 的 升降 等 表示 出 来 。 一 旦 这 些 信息 编码 完成 后 ,说 话 人 会 用 一 些 神经 肌肉 命令 在 
适当 的 时 候 控 制 声 市 振动 ,并 塑造 声 亿 的 形状 以 便 可 以 发 出 编码 中 指定 的 声音 序列 。 神 经 
肌肉 命令 必须 同时 控制 调 首 运 动 中 涉及 的 各 个 部 位 ,包括 层 、 宗 再 涉 , 以 及 控制 气流 古人 否 进 
和信 盟 腔 的 软 肚 。 一 旦 产生 了 语音 信号 ,并 将 这 些 信息 传递 到 昕 者 时 ,语音 的 感知 过 程 也 就 开 
始 了 。 听 痢 内 年 的 基 奔 膜 , 前 先 对 语 首 信 号 进行 动态 的 频谱 分 析 , 神 经 传 怀 副将 基 压 膜 辆 出 
的 频谱 信号 苇 换 成 对 听 完 神经 的 触动 信号 ,这 一 过 程 和 后 面 将 要 介绍 的 特征 提取 的 过 程 有 
些 类 似 。 作 用 在 听 和 宅 神经 上 的 活动 信号 ,在 大 脑 更 访 层 的 中 枢 转 化 成 请 言 编码 ,并 由 此 产生 
具有 语义 的 信息 。 


2.1.1 语音 的 发 音 器 官 


人 类 用 来 产生 语音 的 发 音 北 官 上 月 下 而 上 包括 肺 部 (lung)、 气 管 (trachea) 、 喉 (larynx)、 
咽 (pharynx) 、 遇 腔 (nasal cavity) ,口腔 (oral cavity) 和 层 (lip)。 它 们 作为 整体 形成 了 一 个 
连续 的 管 让 ,如 图 2-1 所 示 。 其 中 喉 部 以 上 的 部 分 称 为 声 掉 , 随 着 发 出 声音 的 不 同 其 形状 是 
变化 的 ,只 的 部 分 称 为 声 门 。 
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肺 是 胸腔 内 的 一 团 有 弹性 的 海绵 状 物质 , 它 可 以 储存 空气 。 通 过 正常 的 呼吸 系统 空气 
可 以 进入 肺 部 ,在 说 话 时 腹 肌 收 纠 使 模 肪 膜 向 上 , 挤 出 肺 部 的 空气 ,形成 气流 。 由 肺 部 呼出 
的 气流 是 语音 产生 的 原动力 。 气 管 将 肺 部 排出 的 气流 送 到 咽喉 。 喉 部 位 于 气管 的 上 奖 , 由 
四 块 软骨 组 成 ,包括 甲状 软骨 、 榴 状 软 骨 、 环 状 软 骨 和 会 灰 软骨。 其 中 甲状 软骨 突出 在 须 部 ， 
称 为 喉 绪 。 在 喉 部 从 喉 绪 到 榴 状 软骨 之 则 的 韦 市 笨 , 称 为 声 市 (vocal cords)。 喉 部 的 声 市 


既是 一 个 准 门 ,又 是 一 个 振动 部 件 。 一 般 声 市 的 长 度 为 10 一 14mm。 呼 吸 时 ,左右 声 囊 打 
开 , 说 话 时 声带 合 扰 。 两 个 声带 之 间 形 成 一 个 开 闭 自如 的 声 门 (glottis), 声 门 的 开启 和 关闭 
是 由 两 个 榴 状 软骨 控制 ,说话 时 合拢 的 声 市 党 声 门 下 气流 神 击 而 张 开 ; 由 于 声 市 具有 一 定 
的 韧性 ,可 以 迅速 财 合 。 当 气流 通过 气管 和 文 气管 经 过 咽喉 时 , 收 紧 的 声带 由 于 气流 的 神 击 
产生 振动 ,不 断 地 张 开 和 闭合 ,使 声 门 同 上 送出 一 连 串 顺 流 。 这 时 的 气流 被 截断 成 准 周期 的 
脉冲 ,一 般 用 非 对 称 的 三 角 波 表示 。 声 市 的 振动 取决 于 其 质量 。 质 量 越 大 ,每 秒 振动 次 数 越 
小 ; 反之 ,质量 越 小 , 声 市 振动 越 快 。 声 珊 振 动 频率 决定 了 声音 的 音 高 。 声 市 振动 产生 声 
音 , 这 是 产生 声音 的 基本 声 源 , 称 为 声带 音源 (glottal source)。 它 被 进一步 调制 后 经 过 咽 
喉 ,口腔 或 者 虹 腔 。 口 腔 的 开 合 、 百 头 的 活动 和 软 有 的 升降 等 发 音 动 作 , 形 成 了 不 同 的 声 道 
构 形 ,从 而 发 出 不 同 的 语音 。 最 后 ,由 嘴唇 开口 处 将 语音 辐射 出 去 ， 

声 审 每 开局 和 闭合 一 次 的 时 间 就 是 基 音 周期 (pitch period), 它 的 倒数 称 为 基 痛 频率 
(pitch frequency) 。 基 音频 率 取 决 于 声 市 的 大 小 . 厚 溥 .松紧 程度 ,以 及 声 门 上 下 之 加 的 气 
压 差 的 效应 等 。 一 般 基 音频 率 越 高 ,声带 被 拉 得 越 长 . 越 紧 、 越 薄 , 声 门 的 形状 也 变 得 越 细 
长 ,而且 这 时 声带 在 闭合 时 也 未 必 是 完全 闭合 的 。 基 音频 率 最 低 可 达到 80Hz, 最 高 可 达到 
500Hz。 它 的 范围 随 发 音 人 的 性 别 .年 龄 及 具体 情况 而 是。 老年 男性 偶 低 ,小孩 和 青年 女性 
偶 高 。 基 音频 率 不 仅 是 反映 说 话 人 特点 的 一 个 重要 参数 ,而 且 基 音频 率 随 时 间 的 变化 模式 ， 
也 反映 了 汉 声 声音 中 的 声调 变化 。 

声 道 由 咽 腔 \ 口 腔 和 瞄 腔 三 个 空气 腔 体 组 成 , 它 是 一 根 从 声 门 延 伸 至 口唇 的 非 均 实 截面 
的 声 害 , 其 外 形变 化 是 时 间 的 函数 。 声 道 是 气流 上 自 声 门 声 市 之 后 最 重要 的 、 对 发 音 起 决定 性 
作用 的 硕 官 ,发 出 不 同音 时 其 形状 变化 是 非 稼 复杂 的 。 成 年 男子 声 着 的 平均 长 度 约 17cm， 
而 声 道 的 截面 积 取决 于 其 发 音 需 官 的 位 置 。 发 音 过 程 中 声 道 的 截面 积 由 舌头 \ 层 、 上 蜂 、 小 
再 的 位 置 决 定 , 具 体 为 0 一 20cm 。 其 中 咽 腔 是 连接 喉 和 食道 与 虹 腔 和 口腔 的 一 段 管子 。 在 
说 话 时 咽 腔 的 形状 会 发 生变 化 , 它 和 口腔 一 起 使 得 声 道 的 形状 变化 多 端 ,因而 能 发 出 较 多 不 
同 的 声音 。 鼻 腔 从 咽 腔 开始 到 盖 筷 为 止 , 长 度 约 为 101mm, 锚 中 隔 贯 穿 全 长 并 将 曙 腔 分 为 
两 个 部 分 。 当 发 鼻 化 音 时 , 软 肝 下垂, 鼻腔 与 口腔 发 生 耦 合 产生 语音 中 的 鼻音 ; 如 果 它 上 
抬 , 则 完全 由 口腔 发 音 。 口 腔 是 声 道 中 最 重要 的 部 分 , 它 的 大 小 和 形状 可 以 由 舌 、. 层 .牙齿 和 
有 的 变化 而 调整 。 瑞 头 是 最 活跃 的 , 它 的 尖 部 .边缘 和 中 间 都 能 目 由 的 活动 ,并 且 整 个 舌 体 
也 可 以 上 下 前 后 活动 。 由 于 它 的 重要 性 ,请 音 中 元 音 的 发 首 就 是 以 百 的 位 置 来 分 类 的 。 双 
唇 位 于 口腔 的 末 妆 , 它 也 可 以 活动 成 展开 的 或 是 圆 形 的 形状 ,在 发 音 过 程 中 起 大 很 重要 的 作 
用 ,所 以 发 音 方 法 中 也 标明 了 是 否 圆 唇 的 发 音 。 齿 的 作用 是 发 齿 化 音 的 关键 ,而 腾 中 的 软 甩 
如 前 所 述 , 是 发 由 音 与 否 的 阀门 。 此 外 , 便 腾 以 及 齿 齿 也 参与 了 发 音 的 过 程 。 

可 以 将 上 述 声 音 产 生机 制 的 原理 用 图 2-2 表示 。 

在 发 音 过 程 中 , 肺 部 与 相连 的 肌肉 相当 于 声 道 系 统 的 激励 源 。 当 声带 处 于 收 紧 状 态 时 ， 
流 经 的 气流 使 声带 振动 ,这 时 产生 的 声音 称 为 浊音 (voiced sound), 不 伴 有 声带 振动 的 音 称 
为 清音 Cunvoiced sound)。 当 再 市 处 于 放松 状态 时 ,有 两 种 方式 能 发 出 声音 。 其 中 一 种 方 
法 是 通过 盏 头 ,在 声 道 的 某 一 部 分 形成 狭 军 部 位 ,也 称 为 收 紧 点 , 当 气 流 经 过 这 个 收 紧 点 时 
会 产生 滑 流 ,形成 噪声 型 的 声音 。 这 时 对 应 的 收 双 点 的 位 置 不 同 及 声 道 形状 的 不 同 , 形 成 不 
同 的 摩 探 音 。 另 一 种 方法 是 声带 处 于 松懈 状态 ,利用 舌头 和 嘴唇 关闭 声 道 ,暂时 阻止 气流 ， 
当 压 力 非 常 高 时 ,突然 放 开 盏 与 唇 ,气流 被 突 然 释 放 产 生 的 短暂 脉冲 音 。 对 应 于 声 思 闭 紧 点 
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图 2-2 语音 产生 的 机 理 图 


的 不 同位 置 和 声 道 的 形状 ,形成 不 同 的 爆破 音 。 

为 了 友 出 各 种 各 样 的 声音 ,需要 调整 声 站 的 形状 , 称 为 调 音 (articulation) 。 声 所 各 部 位 
的 动作 称 为 调 音 运动 (articulation movement)。 调 首 用 的 再 道 的 各 部 分 副官 称 为 调 首 兹 官 
(articulation organ) ,包括 瑞 、 蜂 、 层 和 踢 等 声 道 中 可 以 月 由 活动 的 部 分 。 在 调 音 硕 官 中 , 因 
调 音 而 产生 的 声 所 固定 部 位 的 狭 军 位 置 称 为 调 音 点 (place of articulation) 。 声 市 的 状态 , 包 
括 它 的 位 置 、 形 状 、 各 个 不 同 的 调 音 冀 定 的 大 小 随时 间 变 化 的 情 沈 决定 产生 不 同音 色 的 语 
音 。 这 是 因为 不 同 的 声 候 形状 具有 不 同 的 传递 特性 ,由 于 共鸣 的 作用 ,能 量 按 者 频率 发 生 踢 
弱 的 变化 ,导致 产生 的 语音 之 间 存 在 各 种 差异 。 

由 上 和 面 上 所 述 可 以 看 出 , 声 书 是 气流 日 声 1] 声 市 之 后 的 最 重要 ,也 是 对 发 彰 起 看 决定 性 作 
用 的 希 官 。 用 X 光照 相 技术 ,可 以 清楚 地 显示 出 发 各 种 语音 时 声 道 的 形状 。 虽 然 声 道 的 变 
化 是 非常 复 洒 的 ,但 是 ,如 果 从 声学 观点 来 看 ,可 以 把 它 拉 下 而 完全 不 影响 其 声学 特性 。 这 
样 , 人 们 可 以 从 物理 学 的 观点 来 分 析 声 道 的 贡献 ,并 可 以 方便 地 用 模型 来 描述 它 。 


2.1.2 语音 的 声学 特征 


语音 是 以 声波 的 方式 在 空气 中 传播 。 声 波 是 一 种 纵波 , 它 的 振动 方 各 和 传播 方 问 是 一 
致 的 。 声 波 有 一 些 物理 意义 上 的 描述 ,而 从 语音 学 角度 , 它 具 有 一 些 其 他 的 特征 。 

1. 声波 的 物理 描述 

声波 从 声 源 向 四 面 八方 传播 , 它 的 频率 (frequency) 指 在 单位 时 间 内 声波 的 周期 数 。 而 
波长 (wave length) 指 声波 中 两 个 波峰 之 间 相 隅 的 时 间距 离 。 波 长 的 计算 是 用 声波 的 传播 
速度 /声波 的 频率 。 频 率 越 遍 ,波长 越 短 ; 频率 越 低 ,波长 越 长 。 

从 物理 摘 述 上 看 ,声波 具有 两 个 参数 : 一 个 是 频率 ; 邦 一 个 是 振幅 (amplitude)。 声 音 
的 频率 与 声音 的 音 高 有 关 。 振 幅 则 与 声音 的 响 度 (loudness) 有 关 。 声 音 的 频率 高 ,声音 就 
局 ;声音 的 频率 低 , 再 音 就 低 。 在 充 郊 野外 大 再 呼喊 ,必然 振幅 大 , 啊 度 大 ; 在 近 处 低 声 区 
头 接 耳 ,必然 振幅 小 , 啊 度 小 。 而 频率 和 振幅 之 间 没 有 必然 的 关系 。 

除了 用 频率 和 波长 这 些 物 理 概 念 来 摘 述 声音 外 , 通 稍 的 声音 还 有 复合 音 (complex 
tone) 和 纯音 (pure tone) 之 分 。 音 义 发 出 的 音 是 单纯 声波 ,哨子 发 出 的 音 也 是 纯音 。 人 省 子 低 
音 区 发 出 的 声音 ,其 中 一 部 分 也 是 纯音 。 在 纯音 中 仅仅 有 基 音 而 没有 伴音 ,而 所 谓 倍 音 指 该 
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语音 频率 是 基 频 的 整数 倍 。 一 般 的 声 首 是 包含 了 复合 声波 的 再 音 。 例 如 吉他 的 任何 一 根 
弦 , 它 的 再 波 中 除了 基 频 外 ,还 有 许多 售 首 。 一 个 元 首 也 是 复合 音 。 上 总 的 来 说 ,对 于 大 部 分 
声音 ,并非 只 有 一 个 基 频 ,而 是 有 者 干 个 倍 音 。 在 一 串 声 波 中 , 基 频 的 能 量 最 高 ,力度 最 强 ， 
其 他 倍 音 的 能 量 逐 渐 减 低 ,力量 逐渐 减 蜀 ,以 致 最 后 消失 。 

在 相当 长 的 一 段 时 期 内 ,人 们 只 知道 声音 与 声音 之 间 有 区 别 , 却 不 知道 其 中 的 原因 。 法 
国 物 理学 家 傅 里 叶 发 现 了 各 个 再 首 之 间 的 区 别 在 于 和 弦 (chord) 的 不 同 。 之 所 以 能 够 听 出 
每 种 乐 冀 都 有 日 己 特 殊 的 音色 ,就 是 因为 它们 之 间 的 和 纤 不 同 。 一 个 再 音 的 基 首 与 倍 首 共 
同 组 成 这 个 再 音 的 和 强 。 其 中 频率 最 低 的 和 强 是 第 一 和 强 , 其 他 的 依次 是 第 二 和 强 、 第 三 和 
统 \、 此 四 和 强 , 帮 至 更 多 的 和 续 。 

每 个 复合 音 都 有 一 连 串 的 倍 音 ,但 是 并 非 每 个 倍 音 都 同样 那么 明显 。 事 实 上 ,只 有 一 部 
分 人 悦 音 比较 明显 ,而 其 余 的 倍 音 会 被 抑制 。 

总 之 ,一 个 复合 音 除 了 基 频 外 ,同时 还 有 寿 干 个 人 懂 音 。 每 个 复合 音 突 出 的 倍 音 会 有 所 不 
同 。 在 复合 音 中 , 基 频 的 频率 最 低 ,但 振幅 最 大 。 其 余 各 个 倍 音 的 能 量 逐 渐 地 减少 ,振幅 也 
就 逐渐 减 小 。 

2. 共振 峰 及 其 与 元 音 百 位 的 关系 

声 市 产生 的 声音 周期 较 短 .阻尼 高 ,其 中 包含 的 频率 很 多 , 即 声 市 振动 除 产 生 基 频 
外 ,还 会 有 傍 音 产生 。 基 频 与 倍 音 的 频率 ,取决 于 肺 部 用 力 多 少 以 及 声 市 紧张 度 如 何 。 
这 些 复合 音 通过 口 舱 共鸣 ,有 的 频率 得 到 加 强 , 有 的 频 计 消失 。 口 肥 中 可 以 调节 的 硕 官 
较 多 ,包括 徊 、 上 腾 以 及 唇 的 变化 都 可 能 影 啊 口 腔 的 形状 和 阻尼 大 小 ,使 不 同 的 频率 共 星 
出 来 。 当 把 声 亿 看 作 一 个 发 音 的 腔 体 时 ,激励 的 频率 达到 它 的 固有 频率 , 则 声 道 会 以 最 大 的 
振幅 来 振荡 , 即 产 生 共 鸣 。 一 般 把 这 个 频率 称 为 共振 频率 (formant frequency) ,简称 共振 峰 
(formant) 。 

共鸣 反应 与 共鸣 融 的 质量 有 关 , 声 波 碰 到 便 的 东西 会 反弹 回来 。 如 果 把 球 扔 到 木板 上 ， 
由 于 木板 比较 便 , 球 会 反弹 回来 。 如 果 把 球 扔 到 软 柄 菲 痛 上 ,由 于 椅 育 较 软 ,反弹 力 小 ,就 会 
抵消 一 部 分 冲击 力 。 口 腔 里 和 面 的 肌肉 是 很 软 的 物质 ,再 波 在 口腔 肌肉 上 的 反弹 力 没 有 那么 
强 , 口 腔 肌 内 将 吸收 去 一 部 分 声波 能 量 。 因 此 ,口腔 作为 一 个 共鸣 兹 , 它 有 较 大 的 阻尼 。 无 
阻尼 的 共鸣 颖 ,只 对 一 个 频率 产生 共鸣 反应 ,共鸣 天 阻 尼 大 , 则 会 对 比较 多 的 频率 产生 共鸣 
反应。 通常 ,不 同 的 元 音 是 由 于 口腔 共鸣 的 不 同形 状 造 成 的 。 

包含 口腔 在 内 的 再 道 是 一 个 分 布 参 数 系统 , 它 有 许多 日 然 谐振 频率 (在 这 些 频 率 上 其 传 
递 图 效 具 有 极 大 值 ) ,所 以 声 道 是 一 谐振 乃 , 它 放大 某 些 频率 成 分 而 二 减 其 他 频率 分 量 。 谐 
振 频 率 由 每 一 瞬间 的 声 送 外形 决定 。 讲 话 时 ,天 和 展 连 续 运 动 , 使 声 道 稼 稼 改 杰 外 形 和 入 
才 ,随即 改变 谐振 频率 。 如 果 声 道 的 稚 面 是 均 习 的 ,谐振 频率 将 发 生 在 
es 
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其 中 ,c 为 声速 ,在 空气 中 c 王 340mys; 工 为 声 道 的 长 度 ; 2 为 谐振 频率 的 序号 。 

如 果 工 二 17cm, 则 谐振 频率 发 生 在 500Hz 的 奇数 倍 上 , 即 FF 二 500Hz,F, 二 1500Hz， 
F; 一 2500Hz 等 。 元 音 e/ay/ 发音 时 声 道 的 截面 最 接近 于 均 习 断面 ,所 以 谐振 频率 也 最 接近 上 
述 值 。 而 发 其 他 音 时 , 声 送 的 形状 很 少 是 均 勾 断面 的 ,这 些 谐振 点 之 间 的 间 隅 不 同 。 但 声 道 
的 谐振 点 的 平均 密度 仍然 大 约 每 ]kHz 有 一 个 谐振 点 。 上 述 谐振 频率 就 是 通常 所 说 的 共振 
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峰 。 其 中 共振 峰 特 性 和 元 音 的 音色 紧密 相关 。 一 般 将 再 位 高 度 分 为 蜗 、 中 , 低 , 百 位 的 前 后 
分 为 前 、 中、 后 , 则 元 音 的 音色 和 再 位 的 关系 如 图 2-3 所 示 。 


ij UB] er[ 3 ] u[u] 


a[al] a[Al] a[al 


图 2-3 单元 音 发 痛 盏 位 示意 图 


对 于 元 音 血 位 与 共振 峰 的 关系 ,简单 地 说 ,元 首 特 位 的 “高 . 低 ” 与 第 一 个 共振 峰 有 关 , 碧 
位 的 “前 ,后 ”与 第 二 个 共振 峰 有 关 。 用 元 音 的 前 两 个 共振 峰 频 率 为 坐标 轴 来 表示 各 个 元 首 
所 在 位 置 的 二 维 图 称 为 声学 元 音 图 ,如 图 2-4 所 示 。 其 中 坐标 轴 是 非 线 性 的 ,以 使 各 元 音 区 
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2-4 ”声学 元 音 图 


从 声学 的 角度 看 元 音 , 每 个 元 音 在 口腔 中 所 占有 的 位 置 是 与 元 音 的 共振 峰 频 率 有 对 应 
关系 的 。 一 个 元 音 的 第 一 共振 蜂 频 率 越 低 ,这 个 元 音 的 舌 位 就 越 高 。 一 个 元 音 的 第 一 共振 
峰 的 频率 越 高 ,这 个 元 音 的 碧 位 就 越 低 。 一 个 元 音 的 第 二 共振 峰 频 率 越 低 , 这 个 元 首 的 舌 位 
就 越 后 。 一 个 元 音 的 第 二 共振 峰 的 频率 越 高 ,这 个 元 音 的 舌 位 就 越前 。 不 同人 发 同一 个 元 
音 时 ,各 人 发 音 的 共振 峰 的 频率 不 会 绝对 相同 。 因 此 ,它们 的 共振 峰 频 率 位 置 不 会 完全 重 
登 ,而 会 有 差异 。 但 这 些 差 异 是 同一 个 元 音 的 共振 峰 频 率 位 置 范围 内 的 差异 ,人 耳 和 大 脑 不 
计较 这 些 差异 。 
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2.1.3 语 芋 信号 在 时 域 和 频 域 的 表示 


1. 语音 信号 的 时 域 波形 

在 进行 语音 信号 数字 处理 时 ,最 先 接触 \ 最 直观 的 是 它 的 时 域 波 形 。 通 常 是 将 语音 
用 话 简 转换 成 电信 号 ,上 表 用 A/D 转换 副将 其 转换 成 离散 的 数字 采样 信号 后 存 入 计算 机 内 
存 中 ，。 

图 2-5(a) 是 一 个 女声 说 的 “开始 ?的 时 域 波 形 ,请 痛 数 据 是 在 实验 室 环 境 下 用 普通 麦克 

风 录 制 的 。 采 样 频率 为 16kHz, 每 个 采样 点 用 16 位 进行 量化 。 图 中 横 轴 为 时 间 , 纵 轴 表 示 

信号 的 幅度 。 从 图 中 虽然 无 法 辨别 语音 波形 的 细节 ,但 可 以 看 出 语音 能 量 的 起 伏 , 以 及 语音 
言 号 随时 间 变 化 的 过 程 。 图 2-5(b) 是 将 “ 开 ” 的 元 音 部 分 /ai/ 拉 长 后 的 形状 。 可 以 看 出 ,这 
段 语 音信 号 具有 很 强 的 准 周期 性 ,并 具有 较 强 的 振幅 。 它 的 周期 对 应 的 频率 就 是 基 音 频 
率 。 图 2-5(c) 是 /k/ 辅 音 的 展开 图 。 可 以 看 出 ,辅音 波形 类 似 于 昌 噪 声 , 并 且 具 有 很 弱 的 
振幅 。 


(a) 语音 信号 * 开 始 "时 域 波形 


UR Turk TDR RAAT 
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(b) 元 音 部 分 /ai/ 展 开 图 


| NA 


下 py 
A Me E |] | 本 | | 2 | | mp 中 
(c) 辅音 部 分 /的 展开 图 
图 2-5 语音 信号 “开始 ”的 时 域 波形 及 其 展开 图 


2. 语音 信号 的 频 域 波形 

时 域 波 形 虽 人 然 便 单 耳 观 , 但 对 于 二 首 这 样 复 林 的 信和 号 而 言 ,一 些 特性 要 在 频 域 中 才能 体 
现 出 来 ; 并 且 无 论 是 从 发 育 器 官 的 共振 角度 ,还 是 从 听觉 颖 官 的 频率 啊 应 角度 来 看 ,频谱 部 
是 表征 语音 特性 的 基本 参数 。 其 中 共振 峰 就 是 一 个 典型 的 频 域 参数 , 它 可 以 决定 信号 频谱 
的 总 体 轮廓 或 谱 包 络 (spectrum envelope)。 对 于 声 道 而 言 , 它 的 共振 频率 不 止 一 个 ,一 般 元 
音 可 以 有 3 一 5 个 共振 峰 。 

语 首 的 发 音 过 程 中 , 声 道 通常 都 是 处 于 运动 状态 ,这 个 运动 状态 的 时 变 过 程 比 振动 过 程 
要 缓慢 得 多 ,因此 一 般 假设 语音 信号 是 一 种 短 时 平稳 信号 ,在 一 个 很 得 的 时 间 内 (10 一 
30ms) 是 相对 平稳 的 ,但 在 长 时 的 周期 中 语音 信号 的 特性 会 发 生变 化 ,这 种 变化 的 不 同 决定 
A diee 根据 语音 信号 的 这 种 短 时 平稳 的 特点 ,在 每 一 时 刻 部 可 以 用 该 时 刻 附 
近 的 一 短 段 声音 信号 分 析 得 到 一 个 频谱 。 图 2-6 给 出 了 “开始 ”中 /ai/ 的 频谱 特性 。 其 中 横 
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I - 半 。 纵 轴 和 表示 该 频率 的 踢 螺 ,以 分 贝 (dB) 为 单位 。 
这 里 的 短 时 分 析 米 用 汉 明 窗 ,进行 频谱 分 析 的 窗 长 为 512 个 采样 点 。 


| 


| 
EL ET 
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Hz 1000 2000 3000 4000 5000 6000 € 7000 
图 2-6 “开始 ”中 /ai/ 的 频谱 特性 


从 图 中 可 以 看 出 ,第 一 个 频谱 的 峰值 点 在 250Hz 左右 , 它 反 映 的 是 基 频 。 第 一 共振 峰 
在 500Hz 左右 ,第 二 共振 峰 在 1000Hz 左右 ,第 三 共振 峰 在 1500Hz 左右 。 

3. 语 谱 图 

前 面 的 频谱 分 析 只 能 反映 出 信号 的 频率 变化 ,而 不 能 表示 信号 的 时 间 变 化 特性 。 由 于 
语音 信号 是 一 种 短 时 平稳 信号 ,可 以 在 每 个 时 刻 用 其 附近 的 短 时 段 语 音信 号 分 析 得 到 一 种 

频谱 ,将 语音 信号 连续 地 进行 这 种 频谱 分 析 , 可 以 得 到 一 种 二 维 图 谱 , 它 的 横 坐 标 表 示 时 间 ， 

纵 坐 标 表 示 频 率 , 每 个 像素 的 灰 度 值 大 小 反映 相应 时 刻 和 相应 频率 的 能 量 。 这 种 时 频 图 称 
为 语 谱 图 (spectrogram)。 其 中 能 量 功 率 谱 具 Pi 


已 (mo) | A(Nn,0w) | (2-2) 


i 


其 中 ,XX(n,w) 一 > zxLkjwLn 一 kje zol 是 一 个 长 度 为 2N 十 1 的 窗 图 数 。XCazyow) 表示 


在 时 域 以 ?点 为 中 心 的 一 帧 信号 的 傅 里 时 变换 在 w 处 的 大 小 。 在 实际 情况 下 ,一 般 不 用 对 每 
个 可 能 的 频率 和 时 间 计 算 相 应 的 能 量 . 对 于 频率 轴 ,一 般 计 算 2N 十 1 点 就 足够 ; 对 于 时 间 
, 取 N 个 点 也 足够 。 

图 2-7 给 出 了 语音 “开始 ”的 场 谱 图 。 其 中 模 轴 表示 时 间 (z) , 纵 轴 表示 频率 (wo) ,颜色 
的 深浅 表示 在 (Cz,o) 处 的 能 量 大 小 ,一 般 用 能 量 的 对 数 表 示 , 即 logd(CP.(z,w))。 语 谱 图 
可 以 根据 带 通 滤 波 需 的 宽 罕 分 为 宽 市 语 谱 图 和 军 带 二 谱 图 。 宽 带 语 谱 图 的 频率 分 辩 率 
通常 取 为 300 一 400Hz; 时 间 分 辨 率 为 2 一 5ms。 罕 带 语 谱 图 的 频率 分 辩 率 为 50 一 
100Hz, 时 间 分 辩 率 的 长 度 为 5 一 10ms。 图 2-7(a) 和 图 2-7(b) 分 别 是 “开始 ”的 宽带 语 谱 
图 和 和 军 市 霹 谱 图 。 

下 面 分 别 从 元 首 和 辅音 的 角度 ,说 明 它 们 在 语 谱 图 中 的 具体 表现 出 的 特性 。 汉 语 元 音 
-类 的 儿 音 是 由 声 市 的 准 周 期 振动 ,经 声 道 共鸣 调制 ,由 口 虹 重 射出 来 。 不 同 元 音 的 音色 反 
映 在 不 同 的 频谱 结构 中 。 各 元 音 首 色 上 的 差异 ,可 以 用 前 三 个 共振 峰 频 率 来 表示 。 对 元 音 ， 


@ 本 书 中 的 对 数 函 数 , 除 明确 标注 了 底数 的 部 分 外 ,其 他 形 如 log 表述 的 部 分 底数 均 可 取 任 意 值 。 因 为 语音 信 
号 处 理 中 , 取 对 数 运 算 主 要 有 两 个 用 途 : 一 是 压缩 数据 的 动态 范围 ; 二 是 将 诸如 zy 两 变量 的 乘积 部 分 通过 取 对 数 运 
算 转 化 为 两 变量 的 相 加 , 即 lopgry 王 logr 十 logy。 
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(b) “开始 "语音 的 窄带 语 谱 加 
图 2-7 语 首 “开始 ”的 宽带 语 谱 图 和 罕 带 语 详 图 
从 其 宽带 语 谱 图 上 可 以 看 出 , 语 谱 图 呈现 出 垂直 的 条 纹 , 由 于 宽带 语 谱 图 滤波 器 冲 激 响 应 的 
宽度 大 约 与 基 音 周期 相同 ,因此 这 些 垂直 条 纹 的 间隔 时 间 即 为 基 音 周期 。 在 窄带 语 谱 图 中 ， 
可 以 看 到 元 音 的 共振 峰 频 率 及 其 随时 间 的 变化 ,并 可 以 看 到 浊音 区 的 各 个 谐 波 。 其 中 共振 
峰 表 现 为 较 粗 的 黑色 带 , 称 为 “ 横 杆 ”>(bar) ,该 模 杠 随时 间 起 伏 变 化 。 而 各 个 谐 波 表现 为 横 
问 的 波纹 。 
辅音 一 般 都 比 元 首 短 促 , 而 且 能 量 小 ,发 首 时 声 道 变化 剧烈 ,其 特性 往往 受 后 续 元 音 的 
影响 ,因此 分 析 起 来 要 比 元 首 复 洒 一 些 。 在 清音 期 间 , 看 不 到 浊音 周期 呈现 的 垂直 和 条纹, 而 
表现 的 是 细 而 密 的 杂乱 的 纹理 ,这 可 以 说 明 清 音 的 类 日 噪声 激励 的 性 质 。 一 般 可 以 用 这 样 
几 种 样式 来 表示 辅音 : 下 切线 样式 .间断 区 样式 、 品 声 样 式 。 在 发 清 塞音 时 ,声带 是 不 振动 
的 。 在 塞音 开始 的 时 候 必 然 有 一 个 宁静 点 。 这 时 在 语 谱 图 上 会 有 一 条 笔直 的 切线 。 看 到 这 
条 切线 就 可 以 断定 此 处 是 塞音 的 开头 。 图 2-7 中 ,100 一 200ms 之 间 有 一 条 类 似 的 切线 ,就 
是 因为 “开始 ”中 的 起 始 音 /k/ 是 一 个 清 塞音 。 擦 音 和 送气 音 是 一 片 乱 纹 。 这 些 乱 纹 在 某 些 
频率 区 域 会 比较 集中 ,对 应 的 区 域 称 为 强 谱 区 ,这 是 声 道 对 噪声 源 共 鸣 作 用 的 结果 。 不 同 的 
辅音 , 强 谱 区 的 分 布 是 不 同 的 。 另 外 ,在 连续 发 音 时 , 词 与 词 之 间或 音 市 与 音节 之 间 , 声 市 往 
往 有 简短 的 宁静 。 特 别 是 一 个 音节 之 后 ,如果 是 一 个 清 塞音 开头 , 则 两 个 音节 之 间 会 出 现 一 
个 “ 间 隐 ”形成 一 个 间断 区 。 在 发 清音 时 ,一 般 声 市 是 不 振动 的 ,因此 清音 的 语 庶 和 元 音 的 
语 谱 当 然 不 同 。 在 语 谱 图 上 ,清音 的 图 谱 比 较 含 混 , 看 起 来 有 点 杂乱 。 
另外 , 当 一 个 辅音 与 一 个 元 音 拼接 ,例如 /d/ 和 /a/ 拼 成 /da/ 的 时 候 ,/d/ 的 发 育 部 位 是 舌 
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头顶 齿 齿 , 气 ) ai PE 与 此 同时 ,声带 开始 振动 ， 
这 样 就 出 现 了 声带 波 的 形状 迅速 变 :化 的 声 带 的 激励 ,反映 在 语 谱 图 上 就 是 弯 疝 元 音 段 的 共 
振 峰 守 模 杠 , 妈 所谓 的 过 渡 首 特性 。 同 一 辅音 ar- 音 特性 的 上 升 和 下 降 
各 有 不 同 , 但 其 延长 线 会 合 于 一 点 ,这 就 是 该 辅音 的 音 轨 。 不 同 的 辅音 ,其 过 渡 特 性 和 音 轨 
频率 也 不 尽 相 同 。 在 辅音 的 听 辩 上 ,: een 是 很 重要 的 。 

图 2-7 分 析 的 是 一 种 基本 的 语 谱 图 。 类 似 地 ,还 有 一 种 Mel 语 谱 图 , 它 可 以 表示 出 Mel 
滤波 需 的 能 量 随 着 时 间 的 变化 。 在 Mel 语 谱 图 中 , 横 轴 为 帧 号 , 纵 轴 表示 Mel 频带 滤波 兹 
号 ,每 一 个 像素 点 的 深浅 表示 该 帧 信号 在 该 滤波 希 上 输出 的 能 量 大 小 。 这 时 Mel 功率 谱 表 
示 为 

= > | | (2-3) 
其 中 ,P,(n,k) 表 示 第 nn 个 分 析 窗 的 Mel 频谱 的 第 上 个 分 量 ; mi()) 表 示 第 上 个 Mel 滤波 融 
冲 激 啊 应 的 DFT 变换 的 第 j 个 系数 ; X(n,j) 表 示 语 音信 号 的 第 nn 个 分 析 窗 的 DFT 变换 的 
第 jj 个 点 。 


2.1.4 汉语 中 语音 的 分 类 


音素 是 指 发 出 各 不 相同 音 的 最 小 单位 。 在 汉语 中 ,音素 可 以 构成 声母 和 韵母 。 有 了 时 将 
含有 声调 的 前 母 称 为 调 母 。 由 单个 调 母 或 由 声母 与 调 母 拼 成 的 单位 称 为 音节 。 音 节 在 汉语 
中 就 是 一 个 字 的 音 。 音 节 可 以 构成 词 , 词 可 以 构成 句子 。 汉 语 共 包括 22 个 声母 (包括 零 声 
母 ) 和 38 个 韵母 。 

根据 声母 和 韵母 发 音 动作 的 不 同 , 可 以 把 音素 分 为 辅音 .单元 音 、 复 元 音 
尾音 。 

1. 辅音 

发 辅 首 时 声 道 的 某 处 有 一 定 的 阻碍 ,这 种 阻碍 是 声 道 中 活动 部 分 与 固定 部 分 接触 所 形 
成 的 ,接触 点 不 同 发 出 辅音 的 音色 也 就 不 同 。 具 体 接 触 点 的 位 置 可 以 有 11 个 ,可 以 根据 这 
些 接触 点 位 置 的 不 同 将 辅音 分 为 六 类 : 习 音 舌尖 前 阻 . 舌 尖 阻 .舌尖 后 阻 、 舌 面 阻 .舌根 阻 ， 
如 表 2-1 中 的 横 回 所 示 。 根 据 辅 首发 音 过 程 中 的 具体 阻碍 方式 , 叉 可 分 为 塞音 、 擦 音 、 塞 探 
音 , 盟 音 、 边 音 等 。 发 塞音 WE 流 无 法 通过 ,声音 出 现 短 
暂 的 间 时 ,而 后 气流 突破 该 障碍 而 清 出 ,产生 一 种 很 短促 的 声 音 , 它 经 过 声 道 共鸣 后 辆 射出 
去 。 而 擦 音 在 声 道中 某 部 位 处 并 不 完全 闭塞 ,形成 . 亲 神 蓉 光 对 拓 让 气流 挤 出 去 形成 汕 
流 , 擦 音 可 以 任意 延长 。 塞 擦 音 介 于 擦 音 和 塞音 之 间 , 在 开始 阻碍 处 完全 闭塞 ,气流 无 法 通 

过 ,然后 略微 放松 ,让 气流 挤 出 去 产生 摩擦 ,形成 先 塞 后 擦 的 音 。 蜡 音 在 口腔 里 阻碍 处 完全 
或 几乎 完全 财 合 ,但 软 胶 下 降 , 打 开通 往 虹 有 舱 的 通路 ,* 从 愉 辽 册 去 形 看 音 , 中 
可 以 任意 延长 。 边 音 的 形成 是 舌尖 形成 阻碍 不 让 气流 通过 ,但 舌头 两 边 留 出 空 际 让 气 
通过 。 

辅音 共有 22 个 ,包括 除了 和 零 声 母 以 外 的 全 部 声母 以 及 韵母 中 的 具 前 尾音 ng/0/。 其 中 
大 部 分 辅音 都 是 清 辅 音 , 只 有 m,n,l'r 四 个 辅音 在 发 音 时 声 市 产生 振动 ,是 浊 辅 音 。 辅 音 根 
据 发 音 部 位 和 发 音 方法 的 不 同 , 可 进行 相应 的 分 类 ,具体 情况 如 表 2-1 所 示 。 


和 复 自 
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表 2-1 汉语 辅音 音素 表 


音 部 位 | 双 居 胆 | 此 请 明 | 舌尖 前 阻 | 舌尖 了 下 根 图 


上 层 与 上 具 与 香江 与 | 香 尖 与 舌尖 与 舌 面 与 舌根 与 

育 . 下 导 下 层 上 具 背 上 和 牙 上 起 | 前 硬 肚 硬 肚 软 胜 

家 | bP/ | | | | | sg/W 

送气 | pp | | WW | | | Wk/ 
ma | | | | | 
Es 

祷 训 | 清音 | | /| ss/ | |) sh/s/ | WW | bh/x/ 
| 浊音 | | pa 

鼻音 (浊音 ) | mm | | pa | | | | mAo/ 
边 音 ( 浊 音 ) | | | WW | | 


2. 单元 音 
- 般 单 元 音 有 13 个 ,此 外 还 包括 7 个 从 国际 音标 的 单元 音 音素 借用 的 单元 首 。 应 该 注 
意 ,元 音 并 不 等 于 韵母 。 se 辅音 是 按 着 音 系 的 发 音 特征 来 分 类 的 ; 而 声母 和 疹 母 则 是 按 
音节 的 结构 来 分 类 的 。 尽 管 它们 之 间 有 一 定 的 联系 ,但 是 两 种 不 同 的 概念 。 单 元 音 的 音 
色 由 声 忆 的 形状 决定 ,并 且 主 要 由 舌头 的 形状 及 其 在 口腔 中 的 位 置 、 嘴 唇 的 形状 决定 。 根 据 
舌头 的 高 .中 、 低 ,天 位 的 前 .中 、 后 ,以 及 嘴 展 的 开放 程度 ,可 以 发 出 十 多 种 不 同 的 单元 音 。 
根据 发 音 时 天 位 的 高 低 和 前 后 ,以 及 习 形 的 圆 扇 ,可 将 汉语 中 单元 音 进 行 分 类 ,情况 如 表 2-2 
所 示 。 


表 2-2 汉语 单元 音 分 类 表 


盏 位 前 后 


EC 
ETT ov 

nn EE EE EE CH EE EE EE car 
CE 
Fv) ww | | 


与 


全 部 元 音 都 是 浊 首 , 声 市 都 振动 ， 比 拓 畏 玫 明光 得 多 。 其 中 舌尖 前 元 音 ,和 尖 后 元 音 , 以 
及 卷 盏 元 首 是 汉语 语音 所 特有 的 元 首 首 和 双 。 
3. 3 复元 诗 


音 中 还 有 13 个 复合 元 音 , 它 们 都 是 韵母 表 中 的 前 母 。 所 谓 复合 元 音 是 由 两 个 以 上 的 
AI 其 发 音 方 法 是 : 按 复元 音 中 单元 音 的 顺序 连续 的 移动 天 位 . 展 形 而 发 出 
的 声音。 需要 注意 的 是 ,这 种 连接 不 是 简单 拼接 ,而 是 一 种 新 的 “动态 ”的 声音 。 因 为 在 连接 
时 , 舌 位 、 展 形 顺 序 连 续 的 移动 ,相互 的 影响 ,并 且 结 合 得 很 紧 ,成 为 ， 和 国定 的 间 组 ,在 发 音 
的 感觉 和 听 音 的 感 党 上 等 同 于 单元 音 , 可 以 视 为 独立 的 语音 单位 。 
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4. 复 鼻 尾音 
复 昂 尾 音 共 16 个 ,它们 也 都 是 韵母 表 中 的 韵母 。 在 汉语 中 ,上 曙 韵 尾 只 有 两 个 : -n,-ng。 
它们 与 元 音 复合 之 后 也 成 为 不 可 分 制 的 音 组 。 复 瞄 尾 音 音 素 的 情况 如 表 2-3 所 示 。 
表 2-3 复 鼻 尾音 音素 分 类 表 
bon/yen/ 
in/yn/ 
复 锚 尾音 


eg/ |) ing/in/ veng/uen/ 
| ng/ | iong'im/ 


次 ,就 形成 一 个 音节 ,紧张 两 次 就 形成 两 个 音节 ,如 汉语 xian 包含 的 一 串 音 系 , 如 
果 发 音 时 肌肉 紧张 一 次 ,就 形成 一 个 音 广 “人 鲜 ”, 如果 发 彰 时 肌肉 紧张 两 次 ,就 形成 两 个 首 方 
“西安 ”。 每 个 音节 发 音 时 肌肉 的 紧张 可 以 包含 渐 强 、. 强 峰 和 渐 弱 三 个 阶段 ,如 果 把 这 三 个 阶 
段 的 对 应 音 分 别称 为 起 音 、 领 音 和 收音 的 话 , 音 节 的 构成 模式 有 以 下 四 种 : 中 领 音 ; 四 起 
音 十 领 音 ; @ 领 音 十 收音 ; 由 起 音 十 领 音 十 收音 。 一 个 音节 可 以 没有 起 音 和 收音 ,但 绝对 
不 能 没有 领 音 ,没有 领 音 就 不 能 构成 音节 。 领 音 必须 有 相当 的 啊 度 才能 在 听觉 上 觉察 出 音 
让 的 出 现 。 

汉语 语音 中 ,充当 领 音 的 经 常 是 元 音 (V) ,起 音 一 般 由 辅音 人 CC) 充当 ,收音 可 以 是 元 音 ， 
也 可 以 是 辅音 。 这 样 汉语 音节 结构 的 基本 形式 有 V、VC.CV .CVC 等 。 音节 的 这 种 宏观 物 
理性 质 , 可 以 作为 汉语 连续 语 首 识 别 中 首 节 切 分 的 一 种 依据 。 领 音 处 在 喉头 肌肉 紧张 度 的 
踢 峰 阶段 ,将 形成 音 峰 ,对 应 于 音节 的 中 心 。 而 渐 弱 阶段 的 尾 端 与 另 一 次 肌肉 紧张 渐 强 阶段 
的 开端 之 间 的 地 方 是 喉头 肌肉 紧张 度 的 最 低 点 ,将 形成 首 谷 ,对 应 于 彰 市 的 边界 ,所 以 可 以 

音 谷 处 进行 音节 切 分 。 

2.1.5 汉语 语音 时 韵律 特性 

语音 是 一 种 特殊 的 声音 ,因此 它 上 只 有 声学 特征 的 物理 性 质 。 语 音 的 声学 特征 是 指 音色 、 
音 高 、. 音 长 和 音 强 ,简称 语音 的 四 要 素 。 音 色 也 称 音质 ,是 一 种 声音 区 别 于 其 他 声音 的 基本 
特征 。 音 色 是 由 混入 基 音 的 倍 音 所 决定 的 。 每 个 人 由 于 性 别 、 年 龄 、. 喉 部 和 声 道 构造 的 不 
同 ,产生 倍 音 的 成 分 也 不 相同 , 故 具 有 各 不 相同 的 音色 。 也 可 以 说 ,语音 的 音色 与 声带 的 振 
动 频率 发音 需 官 的 送气 方式 和 声 道 的 形状 ` 斥 二 密切 相关 。 音 高 指 声音 的 高 低 , 即 对 应 前 
面 所 讨论 的 声调 ,汉语 有 阴平 .阳平 、 上 声 和 去 声 四 种 声调 。 从 物理 学 角度 来 分 析 ,音调 的 变 
化 其 实 对 应 频率 的 变化 , 即 其 基 频 随 声 调 的 变化 而 变化 。 基 频 越 高 ,声调 越 高 。 而 声 市 的 振 
动 频率 又 决定 于 声带 的 长 度 .张力 . 厚 溥 和 呼出 气流 的 强 弱 。 一 位 训练 有 素 的 歌唱 家 ,能 精 
确 地 运用 这 些 变化 而 发 出 准确 的 音调 。 声 音 的 长 短 叫 作 音 长 , 它 取 决 于 发 音 持续 时 间 的 长 
短 。 音 强 主要 指 发 音 的 轻重 ,一 般 存 在 三 种 重音 : 正常 重音 ,对 比重 音 和 轻声 。 在 词 或 短语 
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的 各 音节 中 , 奎 无 轻声 和 对 比重 音 , 则 就 是 正常 重音 ,在 没有 中 间 停 顿 的 一 连 串 带 正 常 重音 
的 音节 中 ,不论 是 一 个 短语 还 是 复合 词 ,其 轻重 程度 是 不 完全 相同 的 ,其 中 最 末 音 节 最 重 ,其 
次 是 第 一 个 音节 ,中 间 音 节 最 轻 , 如 “展览 馆 ”“ 徐 球赛 ”等 。 正常 重 音 的 声学 特点 是 声调 的 完 
整 性 和 音 长 的 加 长 ,而 不 是 音 强 的 增加 。 对 轻声 ,首先 它 失 去 了 原 有 的 声调 ,其 次 是 它 的 音 
长 大 大 缩短 ,如 指 物品 的 “东西 ”的 “ 西 "。 对 比重 音 与 正常 重音 不 同 的 地 方 在 于 它 的 音 高 范 
围 更 大 、 音 长 更 长 . 音 强 也 往往 增加 。 

语音 在 音 高 . 音 强 和 音 长 方面 所 显示 出 来 的 抑扬顿挫 的 特性 ,也 称 为 汉语 的 韵律 特性 。 
汉语 中 ,主要 靠 音色 和 音 高 来 区 别 语义 ,而 音 强 和 音 长 不 能 区 别 语义 。 关 于 语音 的 韵律 特性 
还 有 待 于 进一步 的 研究 。 


2.2 语音 信号 的 感知 


十 音信 号 的 感知 过 程 导 人 耳 的 听 筑 系统 密 不 可 分 。 尽 过 100 多 年 前 ,物理 学 家 Georg 
Ohm 就 提出 人 耳 是 一 种 频谱 分 析 仪 的 设想 ,但 直到 20 世纪 60 年 代 , 人们 对 外 围 的 听觉 系 
统 才 有 一 个 较 深 入 的 了 解 ,但 对 于 听 千 通路 等 诗 多 方面 的 饶 究 全 今 还 在 探讨 阶段 。 


2.2.1 听觉 系统 


1. 耳 的 结构 

耳 是 人 关 的 听 筑 亚 官 ,其 作用 就 是 接收 声音 并 将 声音 转换 成 神经 刺激 。 所 谓 的 博 音 感 
知 ,就 是 指 将 听 到 的 声音 经 过 大 脑 的 人 处理 后 变 成 确切 的 含义 。 

人 耳 由 外 耳 (outer ear) .中 耳 (middle ear) 和 内 耳 (inner ear) 三 部 分 组 成 ,如 图 2-8 所 
示 。 其 中 外 耳 .中 耳 、 内耳 的 耳蜗 部 分 是 听 筑 硕 官 。 内 耳 的 前 寿 窗 和 半 规 管 部 分 是 判定 位 置 
和 进行 平衡 的 硕 官 。 


前 庭 神经 


= 耳蜗 神经 
耳 曙 
因 鼓 管 


图 2-8 人 耳 的 构造 


外 有 耳 由 耳 一 (pinna)、 外 耳 道 (external auditory meatus) 和 茅 腹 (Cear drum) 构 成 。 耳 副 
的 作用 是 保护 耳 孔 ,其 卷曲 状 具 有 年 回 作用 。 外 有 耳 道 是 一 条 比较 均匀 的 耳 管 ,声音 沿 外 耳 道 
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传送 至 豆 膜 ,外 耳 站 同 其 他 管道 一 样 也 有 许多 共振 频率 。 外 耳 近 对 声 波 的 共振 频率 可 以 计 
算 如 下 : 共振 峰 频率 = 声音 速度 /声音 的 波长 。 外 耳 道 的 长 度 大 约 是 25mm, 声 波 波长 的 长 
度 是 它 的 4 信 , 声 速 是 340m/s, 因 此 外 耳 道 共振 峰 频 率 二 (1000 X340)/(4X25) 二 3400Hz， 
即 外 耳 道 的 共振 峰 频 率 大 约 是 3400Hz。 由 于 外 耳 道 的 共振 效应 ,会 使 声音 得 到 10dB 左右 
的 放大 。 或 膜 是 位 于 外 耳 道 内 闪 的 蔬 性 锥 形 结构 ,声音 的 振动 通过 辟 膜 传 到 内 耳 。 一 般 认 
为 外 耳 在 声音 感知 中 有 两 个 作用 : 一 是 对 声 源 的 定位 ; 二 是 对 声音 的 放大 。 对 声音 的 放大 
除了 外 耳 道 的 共振 效应 外 , 头 的 衍射 效应 也 会 增 大 玖 膜 处 的 声 压 ,总 共 可 以 使 声音 得 到 
20dB 左右 的 放大 。 外 耳 是 将 声音 发 送 给 内 耳 神经 转换 需 的 一 系列 机 构 中 的 第 一 个 环节 。 

中 耳 为 充气 腔 体 ,由 避 膜 将 其 与 外 耳 隔 离 , 并 通过 圆 形 窗 和 旷 形 窗 两 个 小 筷 与 内 耳 相 
通 ,中 耳 还 通过 咽 辟 管 与 外 界 相连 ,以便 使 中 耳 和 周 于 大 气 之 间 的 气压 得 到 平衡 。 辟 膜 后 面 
的 一 个 小 小 的 骨 舱 里 有 锤 骨 (malleus) 、. 砧 骨 (anvil) 和 狂 骨 (stapes) 三 块 听 小 骨 组 成 。 或 腊 
通过 听 小 骨 将 声音 耦合 至 卵 形 窗 。 其 中 锤 骨 和 莹 膜 接触 ,外 骨 和 内 耳 的 卵 形 窗 相 连 , 听 骨 链 
能 把 或 膜 受 声波 而 产生 的 振动 传 到 内 耳 , 听 骨 链 有 交角 杠杆 的 作用 ,在 传导 声波 时 能 够 增加 
振动 的 力量 。 根 据 力学 计算 , 砧 骨 脚 端的 振动 力量 是 锤 骨 柄 部 的 3/2, 又 因为 玖 膜 的 面积 比 
角形 窗 大 20 傍 左 右 , 所 以 声波 通过 听 骨 链 的 传导 ,振动 力量 可 以 增加 30 售 左 右 。 中 和 耳 或 室 
和 咽 鼓 管 相 连 , 咽 鼓 管 能 维持 鼓膜 内 外 大 气压 的 平衡 。 在 一 定 的 声 强 范 围 内 , 听 小 骨 实 现 声 
音 的 线性 传递 ,而 在 特 强 声 时 , 听 小 骨 实 现 声 音 的 非 线 性 传递 ,以 达到 保护 内 耳 的 作用 。 因 
此 ,中 耳 的 作用 有 两 个 : 一 个 是 通过 听 小 骨 进 行 声 阻抗 的 变换 ,放大 声 压 ; 另 一 个 是 保护 
内 耳 。 

内 耳 次 埋 在 头骨 中 ,由 半 规 管 (semicircular canal) 六 硅 窗 (Coval window) 和 耳蜗 
(cochlea) 组 成 。 基 中 前 寿 窗 和 半 规 管 属 于 本 体感 受 善 ,与 机 体 的 平衡 机 能 有 关 。 半 规 管 是 
三 个 半 环 形 小 管 , 相 互 垂 直 , 类 似 于 一 个 三 维 坐 标 系 统 。 它 们 分 别称 为 上 半 规 管 . 外 半 规 管 
和 后 半 规 管 , 半 规 管内 的 感受 需 能 感受 旋转 变速 运动 的 刺激 ,而 前 庭 窗 内 的 感受 硕 能 感受 静 
止 的 位 置 和 直线 的 变速 运动 。 内 耳 的 耳蜗 是 听觉 的 受 纳 需 ,形似 蜗牛 壳 , 由 蜗 螺 旋 管 诈 转 两 
圈 半 构成 。 耳 蜗 很 小 , 蜗 螺 旋 管 总 长 只 有 3cm。 内 耳 的 结构 复杂 ,又 称 为 迷路 。 以 上 三 部 分 
的 外 表 由 骨 质 形成 , 称 为 骨 迷 路 ; 套 在 骨 迷 路 内 的 膜 性 管 称 为 膜 迷 路 。 骨 迷路 和 膜 迷 路 形 
态 大 致 一 样 ,关系 就 好 像 上 自行 车 车 轮 的 外 胎 和 内 胎 。 膜 迷路 内 有 内 淋巴 液 ; 膜 迷 路 和 骨 迷 
路 之 间 有 外 淋巴 液 。 和 耳蜗 里 的 膜 迷 路 有 感 声 的 毛细 胞 , 它 可 以 把 声音 刺激 变 成 神经 冲动 ,经 
听 神 经 传人 大 脑 的 听 物 中 枢 完 成 语音 的 感 徊 功能 。 和 耳蜗 中 有 一 个 重要 部 分 称 为 基底 腊 
(basilar membrane) ,基底 膜 在 乱 近 前 庭 窗 的 部 分 便 而 军 ,而 在 徘 近 耳蜗 孔 的 部 分 软 而 视 。 
在 基底 膜 之 上 是 柯 蒂 氏 器 官 (organ of corti) , 它 相 当 于 一 种 传 感 装 置 ,耳蜗 内 的 流体 速度 变 
化 ,可 以 影 啊 柯 带 氏 器 官 上 的 毛细 胞 膜 两 边 电 位 的 变化 ,在 一 定 条 件 下 造成 听觉 神经 的 发 放 
和 抑制 ,从 而 完成 机 械 振动 回 神 经 发 放 信 号 转换 的 过 程 。 

2. 听觉 的 形成 

声音 的 感受 细胞 在 内 耳 的 耳蜗 部 分 ,因此 ,外 来 的 声波 必须 传 到 内 耳 才 能 引起 听觉 。 外 
界 的 声波 振动 豆 膜 ,经 过 中 年 的 听 小 骨 传 到 卵 形 窗 , 进 而 引起 耳蜗 的 外 淋巴 和 内 淋巴 的 振 
动 ,这 样 的 刺激 使 耳蜗 中 的 听觉 感受 右 的 毛细 胞 兴奋 ,并 将 这 种 声音 的 刺激 转化 为 神经 溃 
动 ,由 听 神 经 传 到 大 脑 皮 层 的 听觉 中 枢 , 形 成 听觉 。 声 波 的 振动 还 可 以 通过 颅骨 和 耳蜗 骨 璧 
的 振动 传 到 内 耳 ,这 个 途径 叫 骨 传递 。 由 于 听 自 己 说 话 时 包含 了 骨 传 递 部 分 ,因此 与 单纯 的 
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由 致 腊 和 听 小 骨 传 递 的 声音 感觉 会 有 所 人 不同。 

3. 耳蜗 的 作用 

声波 引起 外 耳 乃 空气 振动 ,由 荡 膜 经 过 三 块 听 小 骨 全 到 月 二 的 前 许 窗 , 蚀 肯 的 还 到 引起 
耳蜗 内 流体 压强 的 变化 ， 从 而 引起 行 波 沿 基底 膜 的 传播 不 同 频率 的 声音 产生 不 同 的 行 波 ， 
其 峰值 出 现在 基 压 膜 的 不 同位 置 上 。 频 率 较 低 时 ,基底 腊 的 幅度 峰值 出 现在 徘 近 耳蜗 筷 处 ， 
随 着 声音 频率 的 增加 ,该 峰值 癌 基 的 膜 根 部 (和 菲 近 前 性 窗 的 部 分 ) 移 动 。 在 每 个 声音 频率 上 ， 
随 看 强度 的 增加 , 基 愤 膜 运 动 的 幅度 加 大 ,并 市 动 更 宽 的 部 分 振动 。 不 同 的 声音 频率 沿 看 基 
底 膜 的 分 布 是 对 数 型 的 。 

基底 膜 的 振动 引起 了 基底 腊 和 耳蜗 履 膜 之 间 的 前 切 运 动 , 使 得 基底 腊 和 耳蜗 宪 膜 之 间 
的 毛细 胞 上 的 绒毛 发 生 弯 曲 。 绕 毛 问 一 个 方 癌 的 弯曲 会 引起 毛细 胞 的 去 极 化 
(depolarization) , 即 开 局 离子 通道 产生 加 内 的 离子 流 , 从 而 增加 传人 神经 (Cafferent nerve) 的 
发 放 ; 当 绒 毛 癌 男 一 个 方 回 弯曲 时 ,会 引起 毛细 胞 的 超 极 化 (hyperpolarization) ,增加 细胞 
膜 电 位 ,从 而 导致 抑制 效应 。 基 懈 腊 上 不 同 部 位 的 毛细 胞 具有 不 同 的 电学 和 力学 特性 。 在 
耳蜗 的 根部 , 基 上 的 膜 罕 而 劲 度 强 ,外 毛细 胞 及 其 绒毛 短 而 有 劲 度 ; 而 徘 近 蜗 了 筷 处 ,基底 膜 宽 
而 柔和 ,毛细 胞 及 其 绒毛 也 较 长 而 柔和 。 由 于 这 种 结构 上 的 差别 ,使 得 它们 具有 不 同 的 机 械 
谐振 性 和 电 谐 振 性 。 这 种 差别 是 基 抵 膜 在 频率 选择 方面 不 同 的 重要 因 系 ,也 是 声音 频率 党 
基 奔 膜 呈 对 数 分 布 的 主要 原因 ， 


2.2.2 听觉 特性 


正常 人 的 听觉 系统 是 极为 灵敏 的 ,人 耳 所 能 感觉 的 最 低 声 压 接 近 空气 分 子 热 运 动产 生 
的 声讨 。 一 般 来 说 ,声音 从 右 耳 传 至 左 大 脑 的 速度 比较 快 ,声音 从 左 耳 传 至 右 大 脑 的 速度 比 
较 慢 。 即 两 耳 传 递 速 度 不 同 。 或 者 说 , 左 大 脑 接 收 右 耳 传 来 的 声音 要 快 些 , 右 大 脑 接收 左 耳 
传 来 的 声音 要 慢 些 。 人 A 两 耳 也 有 所 不 同 , 但 它们 辨 听 元 音 的 能 力 大 体 一 
致 。 对 于 辅音 , 右 耳 比 左 耳 强 一 些 ; Ms 正常 人 可 而 声音 的 频率 范 
围 为 16Hz 一 16kHz, 年 轻 人 可 听 到 20kHz 的 声音 ,而 老年 人 可 听 到 的 高 频 声 音 要 减少 到 
10kHz 左右 。 

人 类 听觉 需 官 对 声波 的 音 高 . 音 强 .声波 的 动态 频谱 具有 分 析 感 知 能 力 。 人 耳 对 声音 的 
强度 和 频率 的 主观 感觉 ,是 从 啊 度 及 音调 来 体现 的 。 

1. 人 耳 的 听 阅 及 响 度 

语音 信号 就 是 一 种 复合 音 , 它 由 包含 了 很 多 频率 成 分 的 谐 波 组 成 。 对 频率 不 同 的 纯音 ， 
人 耳 具 有 不 同 的 听 辩 灵敏 度 。 啊 度 就 是 反映 一 个 人 主观 感觉 不 同 频率 成 分 的 声音 强 弱 的 物 
理 量 ,单位 为 方 (phone)。 在 数值 上 1 方 等 于 1kHz 的 纯音 的 声 强 级 ,而 零 方 对 应 人 耳 的 听 
国 。 所 谓 正 常人 的 听 国 是 指 声音 小 到 人 耳 刚 刚 能 听见 时 的 大 小 。 听 国 值 及 啊 度 的 大 小 是 随 
着 频率 的 变化 而 变化 的 ,例如 在 1kHz 的 纯音 下 , 啊 度 为 10 方 时 相当 于 10dB 的 声 压 级 ;而 
对 于 100Hz 的 纯音 ,为 了 使 它 听 起 来 与 10 方 的 1kHz 的 纯音 同样 啊 , 则 声 压 级 应 该 为 
30dB。 这 说 明 人 和 耳 对 不 同 频 率 的 声音 的 啊 应 是 不 平坦 的 。 这 样 , 人 和 耳 感 知 的 声 首 啊 度 是 频 
率 和 声 压 级 的 函数 ,通过 比较 不 同 频 率 和 幅度 的 语音 可 以 得 到 主观 等 响 度 曲 线 , 如 图 2-9 所 
示 。 在 该 图 中 ,最 上 面 那 根 等 啊 度 曲线 是 痛 阅 ,最 下 面 那 根 等 啊 度 曲线 是 听 阅 。 该 曲线 组 在 
3 一 4kHz 附近 稍 有 下 降 ,意味 着 感知 灵敏 度 有 提高 ,这 是 由 于 外 耳 道 的 共振 引起 的 。 
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图 2-9 等 啊 度 曲线 


2. 音调 
音调 是 听 筑 分 辩 声 音 高 低 时 ,用 于 摘 述 这 种 感 筑 的 一 种 特性 。 客 观 上 用 频率 来 表示 音 
调 ,主观 上 感 和 党 音调 的 单位 是 采用 美 (Mel) 标 度 。 这 是 两 个 概念 上 不 同 , 却 有 联系 的 计量 单 
位 。 一 般 对 于 频率 低 的 声音 , 听 起 来 觉得 它 的 音调 低 , 而 频率 高 的 声音 , 听 起 来 感觉 它 的 首 
调 高 。 但 是 音调 和 频率 并 不 是 成 正比 的 关系 , 它 还 与 声音 的 强度 及 波形 有 关 。 一 个 高 于 听 
国 40dB .频率 为 1kHz 的 纯音 所 产生 的 音调 定 为 1000Mel。 如 果 一 个 纯音 听 起 来 比 
1000Mel 的 声音 的 音调 高 出 一 倍 , 则 其 音调 为 2000Mel。 如 果 用 公式 近似 的 表示 音调 和 频 
率 的 天 系 , 则 有 
Tua = 2595lg(]1 十 f/700) (2-4) 


2.2.3 掩 珊 效应 


运 今 为 止 , 人 耳 听 筑 特 性 的 研究 大 多 在 心理 声学 和 博 言 声学 领域 内 进行 。 实 践 证 明 , 声 
音 虽 然 客 观 存在 ,但 是 人 的 主观 感觉 (听觉 ) 和 客观 实际 (声波 ) 并 不 完全 一 致 ,人 耳 听 和 沉 有 其 
独 有 的 特性 。 人 的 听 筑 系统 具有 复杂 的 功能 ,没有 哪 一 种 物理 仪 希 具有 人 耳 那 样 怀 人 的 特 
性 。 听 筑 机 构 不 但 是 一 个 极端 灵敏 的 声音 接收 渍 , 它 还 具有 选择 性 ,可 以 起 到 分 析 融 的 作 
用 。 此 外 , 它 还 具有 判别 啊 度 .音调 和 音色 的 本 领 。 当 然 这 些 功能 在 一 定 程度 上 是 与 大 脑 的 
结合 而 产生 的 ,因此 听觉 特 性 涉及 心理 声学 和 生理 声学 方面 的 问题 。 对 于 听觉 系统 的 复杂 
结构 与 其 信息 处 理 过 程 , 虽 然 现 今 的 科学 已 经 有 所 揭示 ,但 对 真正 的 实质 问题 还 没完 全 

1. 同时 掩蔽 和 异 时 掩蔽 

掩 严 现象 是 一 种 常见 的 心理 再 学 现象 ,是 由 人 和 耳 对 再 首 的 频率 分 辨 机 制 决定 的 。 它 指 
的 是 在 一 个 较 强 的 声音 附近 ,相对 较 弱 的 声音 将 不 被 人 耳 澳 察 , 即 被 强 首 所 掩蔽 。 较 强 的 译 
称 为 掩 培 者 , 弱 音 称 为 被 掩 珊 者 。 掩 蔽 效应 分 为 同时 掩蔽 (simultaneous masking) 和 异 时 掩 
滞 (non-simultaneous masking) 两 类 。 


同时 掩 税 指 掩蔽 现象 发 生 在 掩蔽 者 和 被 掩蔽 者 同时 存在 时 ,也 称 为 频 域 掩 珊 。 声 首 
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否 被 听 到 取决 于 它 的 频率 和 强度 。 正 常人 听觉 的 频率 范围 为 20Hz~20kHz, 强 度 范围 为 
一 5~130dB。 人 和 耳 不 能 听 到 听 党 区 域 以 外 的 声音 。 在 听觉 区 域内 ,人 耳 对 声音 的 响应 随 频 
率 而 变化 ,最 敏感 的 频率 段 是 2~4kHz。 在 这 个 频率 段 以 外 ,人 耳 的 听觉 灵敏 度 逐 渐 降低 。 
人 耳 刚 好 可 听 到 的 最 低 声 压 级 称 为 听 阅 , 它 是 声音 频率 的 函数 ,图 2-10 中 虚线 是 人 耳 在 安 
静 时 的 听 阔 曲线 。 人 耳 不 能 听 到 声 压 级 低 于 听 阔 的 声音 ,例如 ,把 一 个 纯音 信号 作为 目标 ， 
如 果 它 的 声 压 级 低 于 听 阔 ( 即 安静 时 间 值 ) , 它 是 听 不 见 的 。 


1kHz 60dB 音 调 信 号 


“ i “安静 时 人 耳 
的 掩蔽 国 值 曲线 的 听 羡 此 线 
出 

电 ， 


壬 率 /kHz 


图 2-10 频率 为 ]kHz 声 压 级 为 60dB 的 音调 信号 的 掩蔽 阅 值 曲线 


由 于 一 个 较 踢 依 号 (掩蔽 者 ) 的 存在 ,听力 国 值 不 等 于 安静 时 的 国 值 。 在 掩蔽 者 频率 的 
邻 域内 ,听力 国信 被 提高 。 而 新 国 值 ,也 就 是 不 可 闻 的 被 手 散 者 的 最 大 声讨 级 , 称 为 掩蔽 国 
值 。 图 2-10 中 实 线 是 频率 为 1kHz 声讨 级 为 60dB 的 音调 信号 产生 的 掩 贡 国 值 曲 线 。 当 目 
标 信号 的 声 压 级 低 于 掩蔽 者 的 掩 税 国 值 时 ,目标 信号 被 掩 珊 , 即 不 窒 人 耳 所 察觉 。 利 用 人 类 
听觉 系统 的 这 一 特性 ,一 方面 可 以 把 被 掩 项 的 罚 信 号 看 作 与 人 耳 无 关 的 信和 号 ,不必 对 其 进行 
编 个 处理 ; 男 一 方面 ,在 语 首 编 公 中 ,通过 对 量化 品 再 的 频谱 进行 适当 整形 ,使 量化 呢 再 低 
于 掩 均 国 值 曲线 ,在 主观 听 完 上 能 够 被 首 频 信 号 所 掩 珊 , 这 样 既 降低 了 量化 的 人 码 率 , 又 提 闹 
了 音频 编码 的 主观 质量 。 

异 时 掩 天 的 掩蔽 效应 发 生 在 掩蔽 者 和 被 掩蔽 者 不 同时 存在 时 ,也 称 为 时 域 掩蔽 。 异 时 
掩 责 又 分 为 前 掩 税 (pre-masking) 和 后 掩 培 (post-masking) 两 种 。 硅 掩蔽 效 应 发 生 在 掩 珊 者 
开始 之 前 的 某 段 时 则 , 则 称 为 前 掩蔽 ; 右 掩 项 效 应 发 生 在 掩 散 者 结束 之 后 的 某 段 时 间 , 则 称 
为 后 掩 散 。 几 2-11 给 出 了 同时 掩 珊 和 异 时 掩 珊 现象 。 从 图 中 得 知 , 同 时 掩 珊 在 掩蔽 者 持续 
的 时 间 内 一 耳 有 效 , 它 是 一 种 较 强 的 掩蔽 效应 ,而 异 时 掩 项 随 着 时 间 的 推移 很 快 衰减 。 一 般 
后 掩蔽 可 持续 100ms, 而 前 掩蔽 仅 持 续 20ms。 


60F 前 掩蔽 


40 


声 压 级 /dB 


20 


" -50 0 50 10 10 0 50 100 150 200 
掩 珊 者 出 现 后 时 间 /ms 掩 歼 者 消失 后 时 间 /ms 


图 2-11 三 种 掩 培 现象 的 强度 以 及 持续 时 间 
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利用 前 掩蔽 效应 ,对 抑制 央 时 间 分 辩 对 不 够 而 所 成 的 预 回 声 起 看 重要 的 作用 。 请 首 信 
号 是 分 由 处 理 的 , 帧 长 的 选择 受 一 些 因 系 制约 ,如 过 长 的 帧 会 使 时 间 分 辨 对 下 降 , 产 生 严 重 
的 预 回 声 。 解 决 预 回声 的 方法 是 缩短 帧 长 ,以 提高 时 间 分 辨 率 , 这 样 预 回声 的 影响 就 被 限制 
在 一 个 较 短 的 时 间 内 。 当 帧 长 缩短 到 2 一 5ms 时 ,由 于 前 掩蔽 效应 , 预 回 声 会 被 随 之 而 来 的 
冲 激 啊 应 所 掩蔽 。 

人 类 上 听 筑 系统 的 掩蔽 效应 需要 用 一 个 数学 -心理 声学 模型 来 描述 ,依据 该 模型 可 佑 算出 
各 掩 散 者 的 掩 责 国 值 。 掩 贡 国 值 取决 于 掩 贡 者 的 音调 性 频率. 声 压 级 和 持续 时 间 。 图 2-12 
描述 了 一 个 拖 贡 者 产 生 的 掩 散 国 值 曲 线 。 从 图 中 可 以 看 出 , 掩 贡 国信 是 时 间 .频率 和 声 压 级 
的 困 数 ,并且 拖 珊 国 值 随 掩蔽 音调 的 变化 而 有 所 变化 。 


声 压 级 /dB 


图 2-12 ”掩蔽 阔 值 曲线 


2. 各 种 不 同 的 掩蔽 效果 

掩蔽 者 有 三 种 类 型 纯音 调 、 宽 审 队 声 和 乍 利 队 声 。 不 同 的 掩 下 者 和 被 掩 菩 痢 的 组 合 
有 春 不 同 的 掩蔽 绪 朱 ,它们 的 掩 珊 半 值 曲线 形状 有 春 相 似 之 处 。 

1) 纯音 调 信号 间 的 掩蔽 

这 是 指 掩蔽 者 和 被 掩蔽 者 都 是 纯音 调 信 号 ,这 种 掩蔽 效应 比较 简单 。 图 2-13 是 频率 为 
1kHz 不 同 声 压 级 的 纯 首 调 对 纯 痛 调 产 生 的 掩蔽 曲线 。 从 图 中 可 以 看 出 ,掩蔽 国 值 曲 线 的 
低频 段 陡 峭 , 闹 频段 比较 平坦 ，。 


测试 再 压 级 /dB 
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图 2-13 频率 为 1kHz 声 压 级 不 同 的 纯音 调 对 纯音 调 的 掩蔽 辣 值 曲线 


2) 宽带 噪声 对 纯音 调 的 掩蔽 

掩蔽 者 是 宽带 噪声 ,被 掩蔽 者 是 纯音 调 信 和 号。 虽然 白 品 声 的 功率 谱 是 平坦 的 ,但 是 它 产 
生 的 掩蔽 国 值 却 只 在 低频 段 保 持 水 平 。 在 大 约 500Hz 以 上 ,掩蔽 国 值 随 着 频率 的 增 大 而 提 
高 ,每 十 倍 频 程 大 约 提 高 10dB。 在 低频 段 ,掩蔽 国 值 一 般 高 于 噪声 功率 谱 密 度 17dB。 宽 市 
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品 声 对 纯音 调 的 掩蔽 曲线 如 图 2-14 所 示 。 


测试 声 压 级 /dB 
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图 2-14 宽带 噪声 对 纯音 调 的 掩蔽 阔 值 曲线 


3) 宗 带 噪声 对 纯音 调 的 掩蔽 

拖 蔽 者 是 罕 带 噪声 ,被 掩蔽 者 是 纯音 调 信 号 。 这 是 一 种 比较 复杂 的 掩蔽 效应 ,掩蔽 浆 值 
随 声 奈 级 的 不 同 而 有 所 变化 ,并 且 随 着 窒 带 噪声 的 中 心 频率 的 变化 ,掩蔽 半 值 也 相应 地 随 之 
变化 。 下 面 分 别 从 这 两 个 方面 考虑 窄带 噪声 对 纯音 调 的 撼 蔽 效果 。 图 2-15 是 中 心 频 率 为 
1]kHz 声 压 级 不 同 的 军 市 噪声 对 纯音 调 的 掩 熙 国人 曲线。 从 图 中 可 以 看 出 ,曲线 的 峰 信 出 
现在 掩蔽 者 的 中 心 频率 处 ,在 声 压 级 大 于 80dB 时 ,掩蔽 阔 值 曲线 在 高 频段 出 现 严重 的 非 线 
性 特性 ,有 谷 点 出 现 。 
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测试 声 压 级 /dB 
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图 2-15 “中心 频率 为 1kHz、\ 声 压 级 不 同 的 窗 带 噪声 对 纯音 调 的 掩蔽 曲线 
中 心 频率 不 同 的 罕 审 噪声 产生 的 掩蔽 国信 曲线 的 形状 是 不 同 的 ,图 2-16 显示 了 声 压 级 


相同 ,但 中 心 频率 不 同 的 罕 市 噪声 对 纯音 调 的 掩蔽 国 值 曲线 。 从 图 中 可 以 看 出 , 掩 贡 国信 曲 


测试 音声 压 级 /dB 
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图 2-16 声 压 级 相同 、 中 心 频率 不 同 的 罕 沉 噪声 对 纯音 调 的 掩蔽 国 值 曲线 
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为 了 描写 军人 带 品 声 对 纯音 调 信 号 的 掩蔽 效应 ,引入 临界 市 宽 的 概念 。 一 个 纯音 可 以 被 
以 它 为 中 心 频 靳 , 且 具 有 一 定 市 宽 的 连续 噪声 所 掩蔽 ,如 宁 在 这 一 频 市 内 了 噪声 功率 等 于 该 纯 
痛 的 功率 ,这 时 该 纯音 处 于 刚好 能 被 昕 到 的 临界 状态 , 即 称 这 一 币 宽 为 临界 市 守 。 临 界 市 移 
有 许多 近似 表示 ,一般 在 低 于 500Hz 的 频 市 内 ,临界 市 宽 约 为 100Hz; 在 高 于 500Hz 时 , 临 
办 市 宽 约 为 中 心 频率 的 ee 最 高 可 达到 4kHz。 临 界 频 市 的 位 置 不 固定 ,以 任何 频率 为 中 
心 都 有 一 个 临界 频带 。 连 续 的 临界 频带 序号 记 为 临界 频带 率 ,或 称 为 Bark 域 ,这 是 为 了 纪 
念 Barkhauseu 而 定名 的 。 通 党 将 20Hz 一 16kHz 之 加 的 频率 用 24 个 频率 群 来 划分 ,或 者 说 
共有 24Bark ,如 表 2-4 所 示 。 


表 2-4 临界 带宽 表 


临界 带宽 相对 带宽 下 限 频 率 上 限 频率 
/Hz /dB /Hz /Hz 


1000 160 22 1080 


这 种 掩蔽 效应 可 以 从 听 筑 生理 上 找到 依据 。 人 耳 的 基底 腊 具 有 与 频谱 分 析 仪 相似 的 作 
用 。 频 率 群 的 划分 相应 地 将 基底 膜 分 成 证 多 小 的 部 分 ,每 一 部 分 对 应 一 个 频 座 群 。 掩 琶 效 
应 就 是 在 这 些 频 率 群 内 发 生 , 这 是 因为 对 应 的 那 一 频率 群 的 基底 膜 部 分 的 声音 ,在 大 脑 中 似 
平 是 县 加 在 一 起 来 评价 的 ,如 果 这 时 同时 发 声 , 可 以 互相 掩蔽 。 划 分 后 的 Bark 域 与 耳蜗 中 
基底 腊 的 长 度 呈 线性 关系 ,而 与 声 首 频 率 呈 近似 对 数 关 系 。 
除了 按照 上 面 的 表 划 分 Bark 域外 ,也 有 一 种 简单 的 计算 方法 : 
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freq/ 100,， freq 三 500Hz 
lBark = | (2-5) 
9 二 + 4log; (freq/1000), freq 二 500Hz 
在 Bark 域 上 描述 罕 市 信号 对 纯音 调 的 掩蔽 效应 , 声 压 级 相同 ,但 临界 频 币 率 不 同 的 掩 
责 国 值 曲线 如 图 2-17 所 示 。 从 图 中 可 以 看 出 ,掩蔽 国 值 曲 线 在 Bark 尺度 上 是 等 宽 的 。 


230Hz 
500Hz 1KHz 2kHz 4kHz 


! 5 10 15 50 二 
临界 蜂 市 率 /Bark 
图 2-17 声 压 级 相同 .临界 频带 率 不 同 的 罕 带 噪声 对 纯音 调 的 掩蔽 阔 值 曲线 


2.3 语音 信号 的 线性 产生 模型 


从 前 面 的 讨论 知道 ,语音 是 由 气流 激励 声 道 ,最 后 从 嘴唇 或 鼻孔 ,或 同时 从 嘴唇 和 鼻孔 
辐射 出 来 而 形成 。 传 统 的 基于 声 道 的 语音 产生 模型 ,就 是 从 这 一 角度 来 描述 语音 的 产生 过 
程 。 它 包括 激励 模型 . 声 道 模型 和 辐射 模型 ,这 三 个 模型 分 别 与 肺 部 的 气流 和 声带 共同 作用 
形成 的 激励 、 声 道 的 调 音 运动 及 嘴唇 和 鼻孔 的 辐射 效应 一 一 对 应 。 它 们 之 间 的 关系 可 以 用 
图 2-18 表示 。 


振幅 4， 


| 振幅 4N 


图 2-18 ”语音 信号 产生 系统 线性 模型 


2.3.1 激励 模型 


人 研究 证 实 : 发 不 同 的 音 时 ,激励 的 情况 不 同 。 这 些 不 同 大 致 可 分 为 两 大 类 : 在 发 浊音 
时 ,气流 通过 崩 宗 的 声 市 ,对 声 市 进行 冲击 而 产生 振动 ,使 声 门 处 形成 准 周 期 的 脉冲 串 。 声 
市 的 绷 紧 程度 不 同 ,振动 的 频率 也 不 同 , 即 基 音 频率 不 同 。 巾 于 人 的 声 市 情 次 有 所 差异 , 因 
此 具有 不 同 的 基 音 周期 。 应 该 提醒 注意 的 是 ,浊音 不 仅 包 括 所 有 的 元 音 , 也 包括 一 些 浊 辅 
音 。 这 样 ,在 发 浊音 时 声 市 的 不 断 张 开 和 关闭 产生 的 脉冲 波 ,类 似 于 斜 三 角形 的 脉冲 。 此 时 
的 激励 源 就 是 一 个 以 基 音 周期 为 周期 的 冬 三 角形 的 脉冲 串 。 单 个 的 斜 三 角形 脉冲 可 以 用 下 
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Ei —cos(nnx/Ni)|, 0 三 n 肆 Ni 
2- 


g(n) 一 (2-0) 


cos[xn— Ni)/2N,|, Ni 三 n 达 和 NN 十 N， 
hp 其 他 
其 中 ,Ni 为 斜 三 角 波 上 升 部 分 的 时 间 ; N; 为 其 下 降 部 分 的 时 间 。 

如 果 将 上 述 函 数 变 换 到 频 域 可 以 看 出 , 它 相 当 于 一 个 低 通 滤波 带 。 因 此 通常 将 它 表 示 
成 z 变换 的 全 极点 模型 形式 : 


Eee l 


旱 | = me 0 — gs") 
其 中 ,sg 和 gs 都 接近 1。 这样, 斜 三角 波 可 以 看 作 是 加 权 的 单位 脉冲 经 过 上 述 的 低 通 滤波 
需 的 输出 。 而 单位 脉冲 可 以 表示 为 下 面 的 = 变换 形式 : 


(了 


my 是 
ht 0 (2-8) 
其 中 ,A, 是 调节 浊音 的 幅 值 或 能 量 的 参数 。 因 此 整个 激励 模型 可 以 表示 为 
Utz) 一 (zz = A, (2-9) 


i ee 

在 发 清 痛 时 ,再 币 处 于 松弛 状态 ,不 发 生 振 动 , 气 流通 过 声 1| 耳 接 进入 再 扎 , 所 有 的 清 畏 
痛 都 属于 这 种 情况 。 无 论 是 擦 首 还 是 塞音 , 声 亿 都 被 阻碍 形成 湛 流 ,所 以 激励 信号 相当 于 一 
个 随机 拍品 声 。 实 际 上 可 以 用 均值 为 0、 均 方差 为 1, 并 在 时 间或 幅 值 上 为 月 色 分 布 的 序列 
来 表示 。 

应 该 指出 ,单纯 地 将 语音 信号 分 成 受 周期 脉冲 激励 和 受 噪 声 激励 两 种 情况 ,与 实际 情况 
不 完全 符合 。 有 时 即便 将 两 种 油 励 情况 按照 一 定 的 比例 登 加 ,也 不 能 刻画 某 些 声音 ,如 浊 控 
痛 。 为 了 更 好 地 模拟 激励 信号 ,有 人 提出 在 一 个 基 首 周期 中 用 多 个 冬 三 角 波 脉冲 的 方法 。 
此 外 ,还 有 用 多 脉冲 厅 列 和 随机 噪声 序列 的 目 适 应 激励 的 方法 等 。 


2.3.2” 声 道 模 型 


发 不 同性 质 的 声音 时 , 声 道 的 情况 是 不 同 的 。 大 致 可 以 将 这 些 情况 分 为 两 大 类 山 发 
元 音 的 情况 一 一 这 时 声 道 的 口腔 为 稳定 的 某 种 形状 的 谐振 腔 , 由 声 门 来 的 准 周期 脉冲 波 激 
励 声 道 而 产生 啊 应 ,所 有 的 单元 音 、 复 元 音 及 复 鼻 尾音 的 元 音 部 分 都 属于 这 种 情况 ; 书 发 辅 
音 的 情况 一 一 此 时 又 可 以 分 为 塞音 、 探 音 、 曙 音 等 情况 。 发 塞音 时 , 声 道 的 某 部 分 构成 阻碍 
完全 封闭 ,使 声 门 来 的 激励 波 在 此 处 形成 高 压 汕 流 , 然 后 突然 开放 发 出 声音 。 而 发 掠 音 时 ， 
声 道 的 某 部 分 构成 未 完全 封闭 的 阻碍 ,使 激励 波 在 此 处 形成 高 速 清流 ,与 该 处 摩擦 而 发 出 声 
音 。 发 鼻音 时 , 软 胆 下 垂 ,鼻腔 参加 谐振 响应 。 

对 于 声 道 的 数学 模型 有 两 种 观点 : 一 种 是 将 声 道 看 作 是 由 多 个 不 同 截 面积 的 声 管 串联 
而 成 的 系统 , 称 为 声 管 模 型 ; 男 一 种 是 将 声 道 视 为 一 个 谐振 腔 ,共振 峰 就 是 这 个 腔 体 的 谐振 
频率 ,从 这 个 角度 出 发 来 描述 声 道 的 模型 , 即 为 共振 峰 模型 。 由 于 人 耳 听 觉 的 柯 人 蒂 氏 需 官 的 
毛细 胞 是 按 着 频率 感受 来 排列 其 位 置 的 ,所 以 共振 峰 模 型 很 有 效 , 经 常 被 使 用 。 实 践 表 明 : 
用 前 三 个 共振 峰 来 代表 一 个 元 音 就 足够 了 。 对 于 较 复 杂 的 辅音 或 鼻音 ,大 概要 用 五 个 以 上 
的 共振 峰 才 行 。 
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- 般 情 况 下 ,可 以 用 一 个 如 下 式 的 全 极点 模型 来 刻画 共振 峰 特 性 。 
] 
p 
bs 
其 中 , 为 全 极点 滤波 希 的 阶 , 一 般 在 8 一 12 范围 内 取 值 , 它 的 每 一 对 极点 对 应 一 个 共振 峰 ; 
ai 为 声 道 模型 参数 , 它 随 声 扯 的 调 首 运动 不 断 变 化 。 声 站 的 惯性 使 这 些 参 数 变 化 的 速度 受 
到 限制 。 一 般 在 10 一 30ms 的 时 间 间 隐 内 ,认为 这 些 再 道 参 数 保持 不 变 , 这 也 是 语 首 信号 短 
时 分 析 的 理论 依据 之 一 
对 - .此 自 音 和 摩擦 音 , 声 道 传 输 图 数 中 也 包 侣 一 些 零点 。 对 于 这 种 情况 ,可 以 在 上 式 中 
引入 在 干 个 零点 ,但 这 时 的 模型 将 变 得 相对 较 复 淋 。 这 种 情况 也 可 以 通过 适当 提高 阶 数 p， 
使 得 全 极点 模型 可 以 更 好 地 通 近 具有 零点 的 传递 辆 数 。 


2.3.3 辐射 模型 


声 道 的 终端 是 口 和 展 。 从 声 道 输出 的 是 速度 波 ,而 语音 信和 号 是 声 压 波 ,两 者 的 倒 比 称 为 
辐射 阻抗 ,可 以 用 它 来 表示 口 展 的 辐射 效应 ,也 包括 头 部 的 绕 射 效应 等 。 从 理论 上 推导 这 个 
阻抗 是 有 困难 的 ,但 是 如 果 认 为 口唇 张 开 的 面积 近 小 于 头 部 的 表面 积 , 则 可 以 推导 出 辆 射 阻 
抗 公 式 如 下 : 


V(z) = (2-10) 


ii ae | 
zr ({)) R, + iAL Co ll 
其 中 ,R, 一 53 ,一 3, 这 里 a 是 口 层 张 开 时 的 开口 半径 ,c 是 声波 的 传播 速度 。 


由 辐射 引起 的 能 量 损耗 正比 于 辐射 阻抗 的 实 部 ,并 且 人 研究 表明 ,口唇 端的 辐 册 效 应 在 高 
频段 较为 明显 ,而 在 低频 段 影响 较 小 ,因此 可 以 用 一 个 高 通 滤 波 器 来 表示 辐射 模型 ,例如 : 
R(z) = (1]—rz”) (2-12) 
其 中 ,r 接近 1， 
在 实际 信号 分 析 时 , 常 采 用 这 样 的 预 加 重 技术 。 即 在 采样 之 后 ,插入 一 个 一 阶 高 通 滤 波 
釉 。 在 语音 合成 时 再 进行 “去 加 重 ? 处 理 , 就 可 以 恢复 原来 的 声音 。 
由 上 面 所 述 ,完整 的 声音 信号 产生 模型 可 以 用 三 个 子 模型 串联 而 成 ,其 传递 函 数 为 
H(z) = U(zV(z)R(z) CA.13) 


2.4 语音 信号 的 非 线 性 产生 模型 


在 传统 的 线性 语音 产生 模型 中 ,语音 信号 是 声 
的 输出 。 在 发 音 的 过 程 中 声 道 处 于 运动 状态 ,由 于 
这 个 过 程 一 般 可 以 用 时 变 的 线性 系统 来 模拟 。 

线性 语音 产生 理论 是 基于 这 样 的 假设 : 来 日 肺 部 的 气流 在 声 站 中 以 平面 波 的 形式 传 
播 。 这 个 传统 语音 产生 模型 多 年 来 一 直 都 是 语音 研究 者 进行 语音 分 析 和 话音 处 理 的 基础 。 
而 在 20 世纪 80 年 代 ,Teager 等 在 语音 和 听觉 实验 中 发 现 ,在 声 道中 传播 的 气流 并 不 总 是 
以 平面 波 的 形式 传播 ,而 是 有 时 分 离 , 有 时 附着 在 声 道 璧 上。 根据 一 些 实验 的 观测 结果 ， 
Teager 给 出 了 一 个 语音 产生 模型 ,如 图 2-19 所 示 。 在 这 个 模型 中 ,从 再 门 射 出 的 气流 像 一 


道 在 激励 信号 的 作用 下 发 生 共振 而 产生 
这 种 运动 和 语音 信号 相 比 变化 缓慢 ,因此 
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个 噶 跨 ,人 它 在 经 过 声 担 时 极度 不 稳定 ,这 种 不 稳定 性 体现 在 气流 在 离 声 间 壁 最 近 的 地 方 会 附 
看 、 然 后 分 离 .再 附 看 ,这 梓 会 改变 声 提 的 有 效 截 面积 。 从 图 2-19 中 可 以 看 出 , 当 气 流通 过 


真正 的 声带 和 伪 声 带 之 间 的 腔 体 时 会 存在 涡流 ,而 十 而 日 汪 
经 过 伪 声 带 之 后 的 气流 又 会 重新 以 平面 波 的 形式 传 | ”流速 侧面 

播 。Teager 认为 ,在 伪 声 带 处 的 涡流 区 域 也 会 产生 pe a 哮 部 
语音 ,并 且 对 语音 信号 有 调制 作用 。 这 样 ,语音 信号 | 

应 该 由 平面 波 部 分 的 线性 部 分 和 涡流 区 域 的 非 线 性 


部 分 共同 组 成 。 与 传统 的 语音 产生 模型 相 比 ， =。 \ 
. z | i 重新 附 厦 区 域 一 和 NN、、 仿 声 带 
Teager 请 音 产 生 模 型 的 特点 在 于 考 钝 到 有 涡流 存 
在 ,以 及 涡流 会 对 语音 信号 产生 影响 。 在 实验 结果 Bn. 

和 1 > 
的 基础 上 , Teager 通过 工程 化 处 理 给 出 了 一 个 涡流 nk 声带 
Teager 能 量 算 了 于 (Teager energy operator)。 他 在 W YY 
利用 该 算 了 于 对 单个 共振 峰 信 号 的 能 量 跟 蹊 时 发 现 ， _ 


在 一 个 基 音 周期 中 存在 着 多 个 激励 脉冲 。Teager 图 2-19 语音 的 非 线 性 产生 模型 
认为 这 种 多 个 激励 脉冲 的 存在 ,在 一 定 程 度 上 说 明 
语音 信号 不 仅仅 由 声 门 的 激励 产生 ,也 可 以 由 声 痢 中 存在 的 涡流 来 产生 。 在 后 来 的 研究 中 ， 
Thomas 和 McGowan 也 证 实 了 在 语 首 产生 的 过 程 中 ,会 存在 看 涡流 这 种 非 线 性 现象 。 
Thomas 利用 液体 流 模拟 声 道 的 过 程 中 发 现 了 涡流 的 存在 , McGowan 从 流体 力学 角度 证 明 
了 涡流 的 存在 ,同时 证 明了 谓 流 同样 可 以 作为 一 个 声 源 产生 声音 。 

基于 上 述 的 这 种 非 线 性 现象 的 存在 ,许多 学 者 开始 试图 提出 一 个 新 的 语音 产生 模型 来 
解释 堵 首 产生 的 过 程 ,其 中 最 为 成 功 的 是 1993 年 Maragos 从 语 首 是 由 声 近 共振 产生 的 角 
度 ,提出 的 一 个 新 模型 来 描述 请 首 广 生 过 程 ,这 弥 是 调频 -调幅 模型 (AM-FM modulation 
model)。 在 这 个 模型 中 ,请 首 信 号 中 的 单个 共振 峰 的 输出 ,相当 于 以 该 共振 峰 频 认为 载波 
频率 进行 频率 调制 和 幅 值 调制 的 结果 ,进一步 假定 请 首 信 号 是 由 夺 干 个 共振 峰 经 过 这 样 调 
制 结 果 的 全 加 而 成 。 这 样 , 就 可 以 用 能 量 分 离 算 法 (energy separation algorithm) ,将 与 每 个 
共振 峰 相 对 应 的 瞬时 频率 从 博 音 信号 中 分 离 出 来 。 利 用 这 个 瞬时 频率 ,就 可 以 得 到 一 些 质 
述 语音 信号 本 身 基 本 特性 的 一 些 特征 。 这 个 模型 后 续 被 广泛 应 用 到 博 音 信号 处 理 领 域 , 并 
获得 一 定 程度 的 成 功 。 


2.4.1 调频 -调幅 模型 的 基本 原理 
在 调频 -调幅 模型 中 ,假定 语 首 信 号 是 由 硅 干 个 共振 峰 的 幅 值 调制 和 频率 调制 蕉 加 的 结 
果 。 对 于 一 个 载波 频率 为 f. ,频率 调 制 信号 为 gq(?) ,由 a(z) 来 控制 幅 值 的 调制 信号 ,可 以 表 
不 为 
r(t) = aDeos(27 [1 X t+ | ecode]+9] (2-14) 
这 里 的 载波 频率 与 每 个 共振 峰 频 率 对 应 ， 2r| 大 2 + | gndr]t 9 为 在 上 时 刻 的 瞬时 相 


位 。 可 以 将 瞬时 频率 定义 为 瞬时 相位 的 变化 率 , 即 为 /CD) 一 大 十 g(z), 它 反映 了 在 载波 频率 
附近 的 频率 是 按 着 频率 调制 信号 来 变化 。 这 样 ,r(z) 可 以 看 作 是 语音 信号 中 的 单个 共振 峰 
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的 输出 。 可 以 将 语音 信号 看 作 是 由 寿 干 个 这 样 的 共振 峰 调 制 信 号 的 全 加 而 成 , 则 语音 信号 
可 以 表示 为 
K 


s(t) = Dr (2-15) 


其 中 ,K 为 总 的 共振 峰 数 目 ; ,, (1) 为 用 第 个 共 : 振 蜂 条 作为 载波 频率 的 频率 调制 和 幅度 调制 
后 的 信号 。 

对 于 单个 共振 峰 的 调制 信号 x (2) ,可 以 用 一 个 能 量 分 离 算 法 将 幅度 调制 后 的 幅 值 包 络 
ai 和 频率 调制 后 的 瞬时 频率 f(t) 从 请 音信 号 中 分 离 出 来 ,这 个 能 量 分 离 算 法 是 根据 
Teager 能 量 算 子 发 展 而 来 的 。 而 Teager 能 量 算 子 无 论 是 在 连续 域 ,还 是 在 离散 域 中 对 信 
号 分 析 痢 很 有 帮助 ,并 且 这 个 拭 子 在 时 间 伸 缩 、 复 合子 数 ,以 及 函数 的 算术 运算 等 情况 下 贞 
有 很 多 特性 ,利用 这 些 特性 可 以 简化 计算 ,使 得 表达 更 清晰 。 


2.4.2 Teager 能 量 算 子 


Teager 能 量 算 子 在 连续 域 和 在 离散 域 中 有 两 种 表达 形式 。 在 连续 域 中 ,这 个 算 子 可 以 
表示 为 信号 5(2) 的 一 阶 和 二 阶 叶 数 的 函数 ,具有 如 下 形式 : 


ts = ( 守 2) 一 > 旺 这 (2-16) 
或 倍 写 为 
gcLsC2) | = (DD) — s(t) s(¥) (2-17) 


其 中 ,ycl|， 表示 连续 域 的 Teager 能 量 算 子 , 由 后 面 的 公式 推导 可 以 看 出 ,这 个 算 子 实质 上 
是 在 - - 定 程 度 上 对 语音 信号 的 能 量 提供 一 种 测度 , 它 可 以 表示 出 对 单个 共振 峰 能 量 的 调制 
状态 。 也 可 以 用 这 样 的 能 量 算 子 表示 两 个 时 间 图 数 g 和 有 的 相关 性 , 即 


gcLgsh] = gh—gh; 并 [Ag] = gh—hg (2-18) 
注意 ,如 果 了 吨 数 g 和 函数 及 的 顺 厅 不 同 , 结 果 也 不 相同 。 
由 于 要 利用 计算 机 进行 语音 信号 处 理 , 一 般 需 要 将 上 述 公式 进行 离散 化 。 在 离散 域 中 ， 
- 般 用 差分 来 代办 导数 运算 , 式 (2-16) 可 以 改写 如 下 : 
dol sn) | = sn) Cm s(n 1)s(n— 1) (2-19) 
其 中 ,wpL。 表示 离散 域 的 能 量 算 子 。 
从 式 (2-19) 可 以 看 出 ,能 量 算 子 输出 的 信号 的 局 部 特性 ,只 依 顿 于 原始 语音 信号 本 号 
和 它 的 时 域 差 分 , 即 计 算 能 量 算 子 在 第 nn 点 处 的 输出 ,只 需 知道 该 样本 点 和 它 前 后 各 一 个 样 
本 点 的 值 。 这 样 会 使 得 能 量 算 子 输出 后 的 信号 依然 与 原 好 信号 保持 相似 的 局 域 性 。 
J. Kaiser 在 1990 年 给 出 这 种 表示 形式 ,并 且 其 研究 表明 ,如 果 对 多 分 量 信 号 应 用 Teager 能 
量 算 子 时 ,会 产生 交叉 因子 的 干扰 ,因此 一 般 它 只 能 用 于 单 共 振 峰 的 调制 信号 
利用 这 个 Teager 能 量 算 子 ,可 以 把 二 首 信 号 中 的 幅 值 调制 部 分 与 频率 调制 部 分 有 效 地 
分 离开 ,这 就 是 下 面 要 介绍 的 能 量 分离 算 法 。 


2.4.3 能 量 分 离 算法 


能 量 分 离 算 法 (energy separation algorithm,ESA) 使 用 非 线 性 能 量 算 子 来 跟 足 语音 信 
号 ,将 只 包含 单个 共振 峰 的 霹 音 信号 分 离 成 频率 分 量 和 幅 值 分 量 。 其 中 单个 共振 峰 的 调制 
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信号 ,具有 与 式 (2-14) 相 似 的 形式 ,用 离散 形式 可 以 重新 表达 如 下 : 
《ny = (nos| FEA) | = a eos {fen | CD 由 +0) (2-20) 


其 中 ,瞬时 频率 为 f(n) 二 ff. 十 q(n) ,表示 在 中 心 频率 大 附近 按照 调制 信号 频率 q(n) 来 变化 
的 频率 。 对 这 样 的 信号 进行 能 量 拭 了 于 操作 ,根据 前 述 的 性 质 可 得 到 如 下 缩 琳 : 

diren)| 一 | eta | sin Cf On) | af | fF (Cn) R21) 
r(2) 信 和 号 的 能 量 算 子 输 出 由 两 部 分 组 成 : 一 个 是 频率 调制 后 的 瞬时 频率 ; 为 一 个 是 幅 值 调 
制 后 的 幅 值 包 络 。 这 个 结果 表示 了 该 算 子 的 能 量 跟 踩 能 力 , 所 以 将 这 个 算 子 称 为 能 量 算 子 。 
可 以 看 出 ,r(z) 信 号 的 能 量 算 子 输出 是 幅 值 包 络 |e(z) | 和 瞬时 频率 fn) 的 一 个 函数 , 它 可 
以 反映 出 幅 值 和 频率 的 变化 。 如 于 r(nw) 信 号 是 一 个 简单 的 调频 脉冲 信号 ,其 幅 值 不 变 , 则 
经 过 TEO 操作 后 的 输出 如 图 2-20 所 示 。 可 以 看 出 , 当 信 号 的 幅 值 不 发 生变 化 时 ,TEO 操 
作 后 的 信号 可 以 反映 出 频率 的 高 低 。 


全 
Brn 
0 50 100 150 200 250 
样本 后 nn 
(a) 调 业 脉冲 信号 
i 


(b) 调频 脉冲 信号 的 TEO 竹 出 
图 2-20 ”线性 调频 脉冲 的 TEO 输出 


对 于 r(n) 的 导数 , 它 的 能 量 算 子 的 输出 仍然 是 只 与 la(n)| 和 f(n) 有 关 的 一 个 函数 。 考 
虚 到 差分 的 对 称 性 ,可 以 用 xz(72)= 二 [r(x 十 1D 一 rn 一 1)1/2 代 蔡 70 的 导数 , 则 
加 [Fa | = pol xn) | = | aln) | sin’ (Cf (n)) (2-22) 
将 f(n) ,a(n) 作 为 未 知 函数 ,对 式 (2-21) 及 式 (2-22) 联 立 求 解 ,可 得 到 信号 的 幅 值 包 络 和 有 瞬 
时 频率 如 下 : 
一 


arcsin (2-23) 


(nD) = 


xT 


2poLr(n) 


(2-24) 


| a(n) | 


i | 
其 中 ,TT 为 采样 周期 。 这 里 是 用 样本 间距 为 2 的 差分 来 代替 一 阶 导数 。 如 果 用 前 向 差分 后 
问 差 分 来 代 茶 一 阶 导 数 , 可 以 得 到 男 一 种 表达 形式 。 其 中 前 问 差 分 和 后 问 差 分 分 别 为 


vn) = rn — (nO— 1) 
(2-25) 
s(n) = rtn 7 —rtn = ytn | 1) 
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D 十 ppL zn) _ 
le da ,cot . 阶 导数 的 能 量 算 子 的 输出 结果 ,可 得 
ME (2-26) 
4gnL rln) | 
f(tn) A 3arccos[G(n)] (2-27) 
a (2-28) 


1—G’(n) 

这 两 种 表达 方式 的 核心 是 ,由 于 调频 -调幅 信号 的 能 量 算 于 输出 与 该 信号 一 阶 导 数 的 
能 量 算 子 输 出 部 是 瞬时 频率 和 幅 值 包 络 的 函数 , 则 根据 这 两 个 输出 ,可 以 分 别 求 出 瞬时 频率 
和 幅 值 包 络 。 上 述 两 种 表达 方式 的 不 同 之 处 在 于 ,前 一 种 是 利用 两 个 样本 间距 的 差分 来 代 
蕉 导数 ,后 一 种 是 用 一 个 样本 间距 的 前 问 、 后 问 差 分 共同 来 代 巷 导数 。 两 种 方法 中 的 瞬时 频 
率 虱 是 以 每 个 样本 点 为 单位 ,具有 较 遍 的 时 间 分 辨 率 。 有 分 析 表 明 ,后 一 种 表达 方式 的 误差 
了 略 小 于 前 一 种 表达 方式 的 误差 ,但 前 一 种 方式 具有 更 简单 的 数学 分 析 过 程 , 所 以 更 经 稼 
使 用 。 


2.4.4 ”调频 -调幅 模型 的 应 用 


调频 -调幅 模型 在 语音 信号 分 析 中 得 到 了 广泛 的 应 用 ,主要 表现 在 共振 峰 轨 迹 的 跟踪 、 
基 音 频率 的 检测 及 端点 检测 等 方面 。 其 中 关于 共振 峰 获 取 的 应 用 为 主要 方面 。 
共振 峰 的 检测 是 语音 信号 处 理 的 一 个 重要 部 分 ,这 是 因为 共振 峰 参 数 随时 间 变 化 的 情 
况 ,反映 了 声 道 对 各 种 发 音 的 调 音 运动 的 变化 情况 , 它 最 能 体现 声 道 的 一 些 目 然 特 性 ,对 于 
更 好 地 理解 语音 信号 的 产生 、 分 析 霹 音信 号 的 特性 变化 有 着 重要 的 作用 。 传 统 的 共振 峰 检 
测 方法 是 通过 找到 平滑 的 倒 谱 或 LPC 频谱 的 峰值 ,以 及 通过 求解 LPC 多 项 式 的 根来 检测 ， 
这 些 方法 通 篆 是 认为 在 一 个 短 时 语音 帧 内 的 共振 峰 是 不 变 的 。 基 于 调频 -调幅 模型 的 共振 
峰 检 测 方 法 ,由 于 可 以 获得 任意 一 个 时 域 点 n 处 的 瞬时 频率 ,因而 具有 更 高 的 时 间 分 辨 率 。 
对 于 单 共 振 峰 调制 的 信号 ,可 以 通过 式 (2-23) . 式 (2-24) 或 式 (2-26) 一 式 (2-28) 来 求 得 瞬时 频 
率 的 值 。 但 对 于 语音 信和 号, 它 是 由 多 个 共振 峰 调 制 结果 著 加 而 成 ,如 果 直 接 对 这 样 的 多 分 量 
信号 进行 能 量 分 离 算 法 操作 ,会 产生 交叉 因子 的 干扰 现象 。 因 此 ,需要 用 一 组 滤波 器 将 每 个 
共振 峰 调制 的 信号 分 离 出 来 ,然后 再 应 用 上 述 的 ESA 算法 进行 幅 值 包 络 和 瞬时 频率 的 分 
离 。 在 分 离 出 来 的 瞬时 频率 基础 上 做 进一步 的 迭代 ,得 到 共振 上 峰 的 中 心 频率 ; 这 就 是 基于 
能 量 分 离 算 法 的 共振 峰 检测 。 
通 弟 用 Gabor 滤波 天 分 离 博 音信 号 中 与 单个 共振 峰 对 应 的 那 部 分 信号 ,这 个 滤波 天 有 具 
有 嵩 斯 分 布 的 形式 ,同时 具有 最 高 时 间 分 状 率 和 频率 分 辩 率 的 优点 ,因而 被 三 沁 使 用 。 
Gabor 滤波 各 在 离 敬 时 域 的 形式 为 
, exp(— (anT)’)cos(wTn), |n| 夺 N z 
g(n) = (2 -29) 
Ts nN 
其 中 ,w 王 2x 了 ,fF 为 滤波 右 的 中 心 频率 ; a 为 滤波 需 的 带宽 参数 ; 了 为 采样 周期 。 的 选择 
应 使 g (nn) 在 n= 二 N 时 接近 于 0。 根 据 经 验 知 识 , 满 足下 面 公 式 的 N 值 效果 最 好 ， 
exp (一 aTN) 210 (2-30) 
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为 了 将 语音 信号 中 的 瞬时 频率 和 幅 值 调制 包 络 分 离 出 来 ,在 应 用 上 述 的 ESA 算法 之 
前 ,应 该 合理 地 选择 各 滤波 带 的 中 心 频率 和 市 宽 。 其 中 滤波 融 市 宽 参 数 的 选择 非 滑 重要 , 它 
要 求 既 能 包含 想 要 的 共振 峰 信 号 ,又 必须 可 以 排除 相 邻 的 共振 峰 信 号 。 一 般 为 了 简化 起 见 ， 
假定 滤波 需 带 宽 固 定 ,并 根据 经 验 获 得 该 参数 的 值 。 通 常 当 共振 峰 的 中 心 频 率 六 二 1000Hz 
时 ,市 宽 参 数 e 为 800Hz, 其 他 情况 下 的 市 宽 参 数 a 为 1100Hz 为 一 种 最 佳 选 择 。 如 果 允 许 
市 宽 变 化 ,有 关 合 成 AM-FM 请 音 信号 的 研究 表明 ,最 佳 的 带宽 应 该 为 共振 峰之 间距 离 的 线 

在 选择 好 带宽 的 前 提 下 ,对 共振 峰 与 滤波 需 的 中 心 频率 可 以 进行 迭代 地 估计 。 从 一 些 
实验 结果 可 以 看 出 , 当 滤 波 带 的 中 心 频率 和 共振 峰 频 率 有 几 百 赫兹 的 偏差 时 , 它 的 瞬时 频率 
的 平均 值 仍 然 接 近 于 共振 峰 的 峰值 频率 ,并 且 瞬 时 频率 的 平均 值 接 近 于 功率 谱 中 的 峰值 或 
局 部 最 大 值 。 基 于 这 样 的 观测 ,可 以 认为 在 给 定 一 个 初始 估计 中 心 频率 的 前 提 下 ,用 瞬时 频 
率 均 值 可 以 欠 代 地 佑 计 出 滤波 天 的 中 心 频率 ,在 每 一 步 欠 代 的 过 程 中 调整 滤波 融 的 中 心 频 
率 , 达 到 收敛 时 的 中 心 频率 即 为 该 共振 峰 的 中 心 频率 。 对 于 候选 共振 峰 , 当 带宽 固定 ,具体 
的 中 心 频率 授 代 公式 在 离散 域 表 达 如 下 : 


N—] 
a TF) (2-31) 


即 用 前 一 次 的 中 心 频率 为 f 的 滤波 右 滤 波 后 的 语音 信号 ,采用 ESA 算法 进行 能 量 分 解 , 求 
得 第 i 次 的 瞬时 频率 f'(n) ,再 次 用 中 心 频率 迭代 公式 (2-31) 壕 代 求 得 新 的 中 心 频率 。 用 新 
的 中 心 频率 构造 的 滤波 器 重新 对 语音 信号 进行 滤波 , 青 用 ESA 算法 求 得 瞬时 频率 ,开始 新 
的 一 轮 兴 代 。 一 般 认 为 当 相 邻 的 两 次 迭代 中 心 频率 的 变化 范围 不 超过 5Hz 时 , 即 认 为 已 经 
收敛 ,可 以 结束 迭代 过 程 。 其 中 ,中 心 频率 初始 值 的 设 定 可 以 根据 求 LPC 多 项 式 的 根 所 求 
得 的 共振 频率 来 获得 。 这 种 方法 以 调频 -调幅 模型 为 基础 ,充分 考虑 了 请 首 产 生 模型 中 的 非 
线性 现 角 的 存在 ,并 且 可 以 在 任意 样本 点 获得 瞬时 频率 ,具有 较 局 的 时 间 分 辨 率 。 

调频 -调幅 模型 同样 可 以 应 用 于 基 频 提取 上 。 可 以 采用 与 共振 峰 提 取 类 似 的 方法 ,只 是 
使 用 与 第 一 共振 峰 区 域 匹 配 的 一 个 Gabor 惠 通 滤波 需 对 语音 信和 号 进行 滤波 ,然后 用 ESA 算 
法 对 瞬时 频率 和 幅 值 调制 包 络 进行 分 离 ,与 上 述 方法 一 样 求 得 中 心 频率 ,通过 它 来 获得 基 音 
频率 的 估计 值 。 也 可 以 在 语 首 信号 经 过 市 通 滤 波 兹 滤波 之 前 , 先 对 语 首 信号 进行 Teager 能 
量 算 子 操作 ,再 将 Teager 能 量 算 子 输出 分 成 固定 帧 ,计算 交叉 相关 系数 ,然后 进行 峰值 检测 
提取 出 基 频 的 值 。 可 以 对 能 量 算 子 的 输出 按照 一 定 的 方法 提取 基 频 信息 ,这 是 因为 元 音信 
号 的 Teager 能 量 算 子 的 输出 , 仍 与 原始 语音 信号 保持 相同 的 基 音 频率 。 

另外 ,在 端点 检测 方面 也 可 以 应 用 调频 -调幅 模型 。 这 是 因为 Teager 能 量 算 子 不 仅 可 
以 反映 幅 值 变化 ,也 可 以 反映 频率 变化 。 幅 值 变 化 的 越 快 ,或 频率 变化 的 越 快 , 则 能 量 算 子 
的 输出 值 越 大 ,并 且 针 对 不 同类 别 的 信号 时 ,Teager 能 量 算 子 的 输出 也 反映 出 不 同 的 特性 。 
应 用 这 个 特点 可 以 进行 以 Teager 能 量 算 子 输出 的 能 量 为 特征 的 庙 点 检测 。 可 以 简化 计算 
如 下 : 

(1) 计算 出 每 帧 信号 的 功率 谱 ; 

(2) 对 功率 谱 中 每 个 样本 点 用 频率 的 平方 加 权 , 计 算 加 权 后 的 功率 谱 和 的 平方 根 即 为 
所 要 求 的 每 一 帆 的 能 量 , 称 这 个 能 量 为 Teager 帧 能 量 测度 ; 

(3) 以 这 个 能 量 为 基础 进行 端点 检测 。 
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实验 表明 ,用 这 种 方法 获得 的 帧 能 量 测度 进行 端点 检测 ,可 以 得 到 比 用 传统 的 能 量 进 行 
端点 检测 更 好 的 结果 。 
近年 来 ,在 语音 信和 号 处 理 中 ,调频 -调幅 模型 逐渐 受到 重视 ,尤其 是 在 变异 语音 的 分 析 及 
处 理 中 。 这 里 的 变异 是 指 在 环境 发 生 异 党 变化 的 情况 下 , 话 者 由 于 感觉 到 这 种 变化 的 存在 ， 
在 语音 产生 过 程 中 会 做 出 相应 的 调整 ,使 得 产生 的 语音 和 正常 语音 会 有 所 不 同 , 即 发 生 了 语 
音 变 异 。 一 般 情 况 下 , 当 有 变异 存在 时 ,表达 语音 信息 的 特征 会 受到 影响 ,使 得 这 些 特征 不 
能 准确 地 表达 所 包含 的 信息 ,从 而 导致 一 些 语音 识别 系统 的 识别 性 能 下 降 。 因 此 在 有 变异 
情况 存在 时 ,在 一 定 程 度 上 给 语 首 特征 的 准确 提取 市 来 困难 。 对 于 正常 语音 和 变异 语音, 化 
们 之 间 的 变化 主要 体现 在 声 道 特性 的 变化 上 ,这 一 点 可 以 用 共振 峰 参 数 来 刻画 。Hansen 
等 假定 请 首 信号 是 由 线性 分 量 和 非 线 性 分 量 共 同 组 成 ,而 在 变异 情况 下 , 非 线 性 分 量 在 正常 
语音 和 变异 请 首 之 间 的 变化 比较 大 。 基 于 这 样 的 假定 ,利用 调频 -调幅 模型 提取 出 的 共振 峰 
计 尽 作为 变异 请 首 的 特征 ,并 将 此 特征 应 用 于 变异 语音 的 分 类 中 ,取得 了 比 传 统 方法 更 好 的 
分 类 效果 。 同 时 ,与 正常 情况 下 产生 的 语音 相 比 ,变异 情况 下 产生 的 语音 的 非 线 性 现象 更 明 
显 ,采用 调频 -调幅 模型 和 Teager 能 量 算 子 , 可 以 获得 变异 情况 下 语音 的 非 线 性 特征 ,如 
TEO-FM-Var 特征 、TEO-Auto-Env 特征 、TEO-Pitch 特征 等 。 这 些 特征 主要 应 用 在 变异 
语音 的 分 类 中 ,实验 结果 表明 ,这 些 非 线 性 特征 比 传 统 的 线性 特征 ,如 基 频 、 音 紊 或 词 的 持续 
时 间 、 强 度 等 具有 更 好 的 分 类 结果 。 
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CHAPTER 3 


前 面 讨 论 了 语言 学 汉语 语音 学 和 信号 模型 等 基础 知识 。 博 音信 号 处 理 虽 然 包括 语音 
通信 .语音 合成 .声音 识别 等 ,但 其 前 提 是 对 语音 信号 的 分 析 。 只 有 将 声音 信号 分 析 表 示 成 
其 本 质 特性 的 参数 , 才 有 可 能 利用 这 些 参数 进行 高 效 的 语音 通信 ,才能 建立 用 于 诸 音 合成 的 
语音 库 ,也 才 可 能 建立 用 于 识别 的 模板 或 知识 库 。 而 且 , 语 音 合 成 的 音质 好 坏 .语音 识别 率 
的 高 低 , 都 取决 于 对 语音 信号 分 析 的 准确 性 和 精度 。 例 如 ,利用 线性 预测 分 析 来 进行 语音 合 
成 ,其 先决 条 件 是 要 先 用 线性 预测 方法 分 析 语 音 库 , 如 果 线 性 预测 分 析 获 得 的 语音 参数 较 
好 , 则 用 此 参数 合成 的 语音 首 质 就 好 。 又 如 ,利用 市 通 滤 波 兹 组 法 来 进行 语音 识别 ,其 先决 
条 件 是 要 弄 消 楚 请 首 共 振 峰 的 幅 值 ,个 数 , 频 率 变 化 范围 及 其 分 布 情况 。 因 此 ,应 先 对 请 译 
信号 进行 特征 分 析 ,得 到 提高 语音 识别 率 的 有 用 数据 ,并 据 此 来 设计 语音 识别 系统 的 硬件 和 
软件 。 

国内 外 的 经 验 说 明 , 语 音 分 析 的 工作 必须 先 于 其 他 的 语音 信号 人 处理 工作 。 例 如 ,20 世 
纪 40 年 代 , 贝 乐 实 验 室 的 人 研究 人 员 就 对 语 首 信号 分 析 做 了 大 量 的 ,日 有 成 效 的 工作 ,这 些 成 
果 推 动 了 语音 信号 处 理 的 发 展 。 

根据 所 分 析 的 参数 不 同 , 语 音信 号 分 析 可 分 为 时 域 \. 频 域 . 倒 谱 域 等 方法 。 进 行 语音 信 
写 分 析 时 ,最 先 接 触 到 的 ,最 直观 的 是 它 的 时 域 波 形 。 语 音信 号 本 身 就 是 时 域 信号 ,因而 时 
域 分 析 是 最 早 使 用 和 且 应 用 范围 最 广 的 一 种 方法 。 时 域 分 析 具 有 简单 直观 ,清晰 易 懂 、 运 算 量 
小 .物理 意义 明确 等 优点 ,但 更 为 有 效 的 分 析 多 是 围绕 频 域 进行 的 ,因为 语音 中 最 重要 的 感 
知 特性 反映 在 其 功率 谱 中 ,而 相位 变化 只 起 着 很 小 的 作用 。 

第 用 的 频 域 分 析 方 法 有 和 融通 滤波 器 组 方法 、 傅 里 叶 变 换 法 和 线性 预测 分 析 法 等 ,其 中 线 
性 预测 方法 将 在 第 4 章 中 具体 介绍 。 频 谱 分 析 具 有 如 下 优点 : 时 域 波 形 较 吻 随 外 界 环境 变 
化 ,但 语 首 信号 的 频谱 对 外 界 环 境 变 化 具有 一 定 的 项 健 性 。 男 外 , 语 首 信号 的 频 详 具有 非常 
明显 的 声学 特性 ,利用 频 域 分 析 获 得 的 语音 特征 具有 实际 的 物理 意义 ,如 共振 峰 参 数 、 基 音 
周期 参 效 等 。 

倒 谱 域 是 将 对 数 功 率 谱 进 行 反 傅 里 叶 变 换 后 得 到 的 , 它 可 以 将 声 道 特 性 和 激励 特性 有 
效 地 分 开 , 因 此 可 以 更 好 地 揭示 语音 信号 的 本 质 特征 。 

按照 语音 学 的 观点 ,可 将 语音 信号 分 析 分 为 模型 分 析 法 和 非 模型 分 析 法 两 种 。 模 型 分 
析 法 是 指 依 据 寺 音信 号 产生 的 数学 模型 ,来 分 析 和 提取 表征 这 些 模型 的 特征 参数 ; 共振 峰 
模型 分 析 及 线性 预测 分 析 即 属于 这 种 方法 。 几 不 进行 模型 化 分 析 的 其 他 方法 都 属于 非 模型 


分 析 法 ,包括 上 面 提 到 的 时 域 分 析 法 、 频 域 分 析 法 及 同 态 分 析 法 等 。 

贯 罕 于 请 音信 和 号 分 析 全 过 程 的 是 “ 短 时 分 析 技 术 ”。 根 据 对 语音 信号 的 人 研究 ,其 特性 是 
随时 间 而 变化 的 ,所 以 它 是 一 个 非 稳 态 过 程 。 但 从 另 一 方面 看 ,虽然 语音 信号 具有 时 变 特 
性 ,但 不 同 的 语音 是 由 人 的 口腔 肌肉 运动 构成 声 道 的 某 种 形状 而 产生 的 啊 应 ,而 这 种 肌肉 运 
动 频 率 相 对 于 语音 频率 来 说 是 缓慢 的 ,因而 在 一 个 短 时 间 范 围 内 ,其 特性 基本 保持 不 变 , 即 
相对 稳定 ,所 以 可 以 将 其 看 作 是 一 个 准 稳 态 过 程 。 基 于 这 样 的 考虑 ,对 请 音信 号 的 分 析 和 处 
理 必 须 建立 在 “ 短 时 ”的 基础 上 , 妈 进 行 “ 短 时 分 析 ”。 将 语音 信号 分 为 一 段 一 段 来 分 析 , 其 中 
每 一 段 称 为 一 " 帧 ”(frame)。 由 于 语音 信号 通 稼 在 10 一 30ms 之 内 是 保持 相对 平稳 的 ,因而 
帆 长 一 般 取 10 一 30ms。 

本 和 曹 首先 介绍 请 音信 号 的 数字 化 处 理 , 接 痢 介 绍 声音 信号 的 时 域 处 理 技 术 及 和 频 域 和 便 
谱 域 的 相应 处 理 。 此 外 ,还 将 介绍 常见 的 倒 谱 特征 、 基 音 周 期 和 共振 峰 参 数 的 提取 等 。 


3.1 语音 信号 数字 化 


语音 信号 数字 化 之 前 ,必须 先进 行 防 混 有 登 滤 波及 防 工 频 干 扰 滤波 。 其 中 防 混和 到 滤波 指 
滤 除 高 于 1/2 采样 频率 的 信号 成 分 或 噪声 ,使 信号 这 宽 限制 在 某 个 范 赎 内; 否则 ,如 果 和 采样 
率 不 满足 采样 定理 , 则 会 产生 频谱 混合 ,此 时 信号 中 的 高 频 成 分 将 产生 失真 ; 而 工 频 干扰 指 
50Hz 的 电源 干扰 。 由 于 防 混 全 和 工 频 干扰 滤波 器 在 一 个 集成 块 中 ,实现 起 来 很 倍 便 , 在 这 
里 不 再 歼 述 。 

3.1.1 语 芋 信号 的 炉 样 和 量化 

语音 信号 是 时 间 和 幅度 都 连续 变化 的 一 维 模拟 信号 ,要 想 在 计算 机 中 对 它 进 行 处 理 , 就 
要 先进 行 采样 和 量化 ,将 它 变 成 时 间 和 幅度 都 离散 的 数字 信和 号 。 

在 语音 信号 处 理 中 ,需要 将 信号 表示 成 可 以 处 理 的 函数 的 形式 。 对 于 模拟 信和 号 x, (2)， 
表示 函数 值 随 着 连续 时 间 变 量 1 的 变化 趋势 。 如 果 以 一 定 的 时 间 间 隔 荆 对 这 样 的 连续 信 
取 值 , 则 连续 信号 x, (1) 即 变 成 离散 信和 号 z(z) = 二 x (nT) ,这 个 过 程 称 为 采样 ,其 中 两 个 取 
点 之 间 的 间隔 工 称 为 采样 周期 , 它 的 倒数 FF, 称 为 采样 频率 。 

根据 采样 定理 , 当 采 样 频率 大 于 信号 最 高 频率 的 两 倍 时 ,在 采样 过 程 中 就 不 会 丢失 信 
息 ,并 且 可 以 用 采样 后 的 信号 重 构 原 始 信号 。 实 际 的 信号 第 有 一 些 低 能 量 的 频谱 分 量 超过 
采样 频率 的 一 半 , 如 溃 音 的 频谱 超过 4kHz 的 分 量 比 其 峰值 至 少 要 低 40dB; 而 对 于 清音 , 即 
使 超过 8kHz ,频率 分 量 也 没有 显著 下 降 ,因此 语音 信号 所 占 的 频率 范围 可 以 达到 10kHz 以 
上 。 虽 然 这 样 ,但 对 声音 清晰 度 有 了 明显 影响 部 分 的 最 高 频率 为 5. 7kHz 左右。CCITTI( 国 际 
电报 电话 咨询 委员 会 ) 提 出 的 G. 711 标准 建议 采样 频率 为 8kHz, 但 一 般 情况 下 这 只 适合 电 
话语 音 的 情况 ,因为 电话 语音 的 频率 为 60 一 3400Hz。 在 实际 的 语音 信号 处 理 中 ,采样 频率 

- 般 为 8 一 10kHz。 有 一 些 系统 为 了 实现 更 高 质量 的 语音 合成 ,或 者 使 语 首 识别 系统 得 到 
更 高 的 识别 率 , 将 可 处 理 的 语音 信号 扩展 到 7 一 9%kHz, 这 时 的 采样 频率 一 般 为 15 一 20kHz。 
表 3-1 给 出 了 采样 率 对 语音 识别 系统 性 能 的 影 啊 。 


A 
= 
二 
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表 3-1 不 同 采样 率 对 误 识 率 降低 程度 的 影响 


采 样 率 相对 误 识 率 的 降低 程度 相对 误 识 率 的 降低 程度 
8kEHz 16kHz 十 10% 


在 表 3-1 中 ,将 8kHz 采样 率 时 的 系统 作为 基线 系统 , 当 采 样 率 为 11kHz 时 ,系统 的 误 
识 率 有 10% 的 降低 ; 继续 升 高 采样 率 到 16kHz 时 ,系统 的 误 识 率 与 11kHz 相 比 有 10% 的 
降低 ; 当 采 样 率 继续 增加 时 , 误 识 率 几 乎 设 有 降低 。 因 此 在 一 般 的 识别 系统 中 ,采样 率 最 高 
选择 在 16kHz。 

图 3-1 的 下 半 部 分 为 一 段 模拟 信号 ,其 上 半 部 分 为 对 应 的 离散 信号 。 可 以 看 出 ,采样 后 
的 信号 在 时 间 域 上 是 离散 的 形式 ,但 在 幅度 上 还 保持 着 连续 的 特点 ,所 以 要 进行 量化 。 量 化 
的 目的 是 将 信号 波形 的 幅度 值 离散 化 。 一 个 量化 颖 就 是 将 整个 信号 的 幅度 值 分 成 者 干 个 有 
限 的 区 间 , 并 且 把 落 入 同一 个 区 间 的 样本 点 都 用 同一 个 幅度 值 表示 ,这 个 幅度 值 称 为 量化 
值 。 量 化 方式 有 3 种 : 堆 记 忆 量 化 .分 组 量化 和 序列 量化 。 零 记忆 量化 是 每 次 量化 一 个 模 
拟 采 样 值 ,并 对 所 有 采样 点 都 使 用 相同 的 量化 需 特 性 。 分 组 量化 是 从 可 能 输出 组 的 离散 集 
合 中 , 选 出 一 组 输出 值 ,代表 一 组 输入 的 模拟 采样 值 。 序 列 量化 是 在 分 组 或 非 分 组 的 基础 
上 ,用 一 些 邻 近 采 梓 点 的 信息 对 采样 序列 进行 量化 。 


9 ny hh 
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图 3-1 模拟 信号 和 对 应 的 离散 信号 


过 记忆 量化 是 最 简单 的 一 种 , 它 的 输入 -输出 特性 采用 阶 樟 形 男 数 的 形式 。 图 3-2 给 出 
了 了 两 种 量化 带 特 性 。 中 点 上 升 量化 希 的 输出 没有 零 电 平 ,在 去 附近 有 两 个 输入 区 间 ; 正 区 
间 产 生 正 输出 电 平 , 负 区 间 产 生 负 输出 电 平 。 中 点 水 平 量化 带 有 和 去 电 平 输出 , 它 对 应 于 雪 业 
和 区间 。 量 化 范围 和 电 平 可 以 用 不 同方 法 选取 ,但 通 旬 者 是 均匀 分 布 的 。 

一 般 量 化 值 儿 用 二 进 制 来 表示 ,如 果 用 BB 个 二 进 制 数 表示 量化 值 , 即 量化 字 长 ;那么 一 
般 将 幅度 值 划分 为 2 个 等 分 区 间 。 从 量化 的 过 程 可 以 看 出 ,信号 在 经 过 量化 后 ,一 定 存在 


:个 量化 误差 。 其 定义 为 


外 一 一) (3-1) 
其 中 ,e(n) 为 量化 误差 或 噪声 ; x(n) 为 量化 后 的 采样 值 , 即 量 化 冀 的 输出 ; x(n) 为 未 量化 的 
及 样 值 , 即 量化 如 的 输入 。 对 于 上 图 中 的 两 种 量化 表 , 当 按 2zmx 一 AX2 选 定 A 和 B 时 , 量 
化 误差 的 变化 范围 为 
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(a) 中 扣 上 升 量化 篆 (b) 中 点 水 平 量化 益 
图 3-2 量化 部 特性 


3 


er 


2 
其 中 ,zxwx 表 示 信 号 的 峰值 , 当 信 号 波形 的 变化 足够 大 或 量化 间 阳 A 足够 大 时 ,可 以 证 明 量 
化 噪声 符合 具有 下 列 特性 的 统计 模型 : 山 它 是 一 个 平稳 的 日 噪声 过 程 ; 多 量化 噪声 和 输入 
言 号 相互 独立 ; (3) 量化 噪声 在 量化 间 阳 内 均匀 分 布 , 即 具 有 等 概率 密度 分 布 。 
右 用 cz 表示 输入 请 首 信号 序列 的 方差 ,os 表示 了 噪声 序列 的 方差 , 则 可 以 证 明 量 化 信 吻 
比 SNR(dB) 为 


Sle 


本 
SNR 一 iolg| 瑟 )- 一 20log| ze | (3-3) 


假设 语音 信号 的 幅度 服从 拉 普 拉 斯 分 布 ,此 时 信号 幅度 超过 4o; 的 概率 很 小 ,只 有 0.35%， 
因而 可 以 取 zw 一 40;。 此 时 式 (3-3) 变 为 

SNR = 6.02B—7.2 (3-4) 
式 (3-4) 表 明 : 量化 部 中 每 个 比特 字 长 对 信 噪 比 的 贡献 大 约 为 6dB。 当 量化 字 长 为 7 比特 
时 , 信 噪 比 为 35dB。 此 时 量化 后 的 语音 质量 能 满足 一 般 通信 系统 的 要 求 。 然 而 研究 表明 ， 
语音 波形 的 动态 范围 达 55dB, 故 量化 字 长 应 取 10 比特 以 上 。 

经 过 采样 和 量化 过 程 后 ,一般 还 要 对 语音 信号 进行 一 些 预 加 重 。 由 于 语音 信号 的 平均 
功率 谐 受 声 门 激励 和 口 蜡 畏 射 的 影 啊 ,高 频 病 大 约 在 800Hz 以 上 按 看 一 6dB/ 信 和 频 程 跌落 ， 
为 此 要 在 预 处 理 中 进行 预 加 重 。 其 目的 就 是 提升 高 频 部 分 ,使 信号 的 频谱 变 得 平坦 ,便于 进 
行 频 谱 分 析 或 声 道 参 数 分 析 。 预 加 重 可 以 在 A/D 变换 前 ,在 防 混 鱼 滤波 之 前 进行 ,这 样 不 
仅 能 够 进行 预 加 重 ,而且 可 以 压缩 信号 的 动态 范围 ,有 效 地 提高 信 品 比 。 预 加 重 也 可 以 在 
A/D 变换 之 后 进行 ,用 具有 6dB/ 售 频 程 提升 高 频 特 性 的 预 加 重 数字 滤波 冀 实 现 , 预 加 重 滤 
波 希 一 般 是 一 阶 的 ,形式 如 下 : 

H(z)= 1—uz (3-5) 
其 中 ,w 值 接近 1, 典 型 的 取 值 为 0. 94 一 0.97。 预 加 重 后 的 信号 在 分 析 处 理 之 后 ,需要 进行 
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去 加 重 处 理 , 即 加 上 一 6dB/ 倍 频 程 下 降 的 频率 特性 来 还 原 成 原来 的 特性 。 

一 般 情 况 下 ,如 果 一 个 输入 信和 号 是 若干 信号 的 线性 至 加 ,而 其 输出 是 对 应 的 若干 输出 信 
号 的 线性 又 加 时 , 则 称 这 样 的 数字 系统 为 线性 系统 ,否则 称 其 为 非 线 性 系统 。 语 音信 号 人 处理 
中 常用 的 非 线 性 系统 如 表 3-2 所 示 。 


表 3-2 语音 信号 处 理 中 常用 的 非 线 性 系统 


非 线 性 系统 表 达 式 
(2N 十 1) 的 中 值 滤 波 y(n)=median{x(n— N), ,rT(n) ,rT(nt N))} 
全 波 整 流 yn)= |zx(n)| 
半 波 整流 


TN) Xx(n) 宇 0 
VD 一， 
10， TNO 
频率 调制 y(n) = Acos(wo tT Awr(n) )n 
用， x(n) 宇 A 


便 限 制 器 (Hard-Limiter) y(n) 一 a ， | rz | <A 
一 入， zn) 夺 一 A 


对 于 系统 的 表示 , 除 线性 系统 和 非 线性 系统 外 ,还 可 以 根据 系统 参数 是 否 随 时 间 变 化 分 
为 时 不 变 系统 和 时 变 系统 。 


3.1.2 短 时 加 窗 处 理 


经 过 数字 化 的 语 首 信号 实际 上 是 一 个 时 变 信号 ,这 是 由 于 人 在 发 首 时 声 道 一 卫 处 于 变 
化 状态 ,因此 实际 上 的 语音 信号 产生 系统 可 以 近似 看 作 线 性 时 变 系 统 。 为 了 能 用 传统 的 方 
法 对 语音 信号 进行 分 析 ,假设 语音 信号 在 10 一 30ms 短 时 间 内 是 平稳 的 。 后 面 的 所 有 分 析 
都 是 在 语音 信号 短 时 平稳 这 个 假设 条 件 下 进行 的 。 
为 了 得 到 短 时 的 语音 信号 ,要 对 语音 信号 进行 如 式 (3-6) 所 示 的 加 窗 操作 。 窗 函数 平滑 
地 在 语音 信号 上 滑动 ,将 语音 信号 分 成 帧 。 分 帧 可 以 连续 ,也 可 以 采用 交 奢 分 段 的 方法 , 交 
登 部 分 称 为 帆 移 ,一 般 为 窗 长 的 一 半 。 
在 加 窗 的 时 候 , 不 同 的 窗口 选择 将 影响 到 语 首 信号 分 析 的 结果 。 在 选择 窗 卫 数 时 ,一 般 
有 两 个 问题 要 考虑 。 
1. 窗 范 数 形式 
窗 限 数 可 以 选用 和 矩形 窗 , 即 
1]，0 三 nn 三 NN 一] 
wl(n) = 《3-0) 
四 其 他 
或 其 他 形式 的 窗 函 数 , 如 汉 明 (hamming) 窗 , 即 


0.54 一 0.46cos[2xn/(N—1)|,， 0 三 nn 三 NN 一 ] 
fi 下 = | (3-7) 


WE 其 他 


或 汉 宁 窗 , 即 
0.5[1—cos(2an/(N—1))|], 0 三 n 达 Nl1 


rom) = (SY 
0， 其 他 


其 中 ,NN 为 窗口 长 度 。 
这 两 种 窗 函 数 可 以 统一 定义 为 


(1 —a)—acosl2xn/(N—1)|, 0 三 n 夺 NN 一 1 
i ny) = (3-9) 
bs 其 他 


其 中 , 汉 明 窗 对 应 的 a 二 0. 46, 汉 宁 窗 对 应 的 a 二 0. 5。 
虽然 这 些 窗 好 数 的 频率 啊 应 都 有 具有 低 通 的 特性 ,但 不 同 的 窗口 形状 将 影 啊 分 帆 后 短 时 
特征 的 特性 。 下 面 以 和 矩形 窗 和 汉 明 窗 为 例 对 窗口 形状 进行 比较 。 


所 形 窗 在 和 窗 内 对 所 有 的 采样 点 给 以 同等 的 加 权 , 窍 形 窗 图 数 对 应 的 数字 滤波 硕 的 单位 
冲 激 啊 应 对 应 的 频谱 为 
N-—1 
时 _ We _ SnoN 2) \ 一 juCN 一 1)72 
H(w) 2e nC C A(lw)e (3-10) 


其 中 , 幅 值 啊 应 A(w) 是 实 偶遇 数 ,其 形状 如 图 3-3 所 示 。A(w) 罕 过 模 轴 的 点 为 wi 二 2xk/ 
N ,第 一 个 去 信 所 对 应 的 归 一 化 频率 为 


万 = 六 人 了 


图 3-3(a) 中 给 出 了 在 N=51 时 的 矩形 窗 及 其 频率 啊 应 的 对 数 幅度 。 需 要 注意 , 户 对 应 于 
矩形 窗 的 低 通 滤波 器 的 归 一 化 截止 频率 。51 点 汉 明 窗 的 频率 响应 如 图 3-3(b) 所 示 。 可 以 
看 到 , 汉 明 窗 的 第 一 个 零 值 频率 位 置 比 和 矩形 窗 要 大 一 售 左 碳 , 即 汉 明 窗 的 主办 带宽 大 约 是 同 
样 宽 度 和 矩形 窗 带 宽 的 两 倍 。 同 时 也 可 以 很 明显 地 看 到 ,在 通 带 外 , 汉 明 窗 的 衰减 较 相 应 的 矩 
形 窗 大 得 多 。 

对 语 首 信号 的 时 域 分 析 来 说 , 窗 晴 数 的 形状 是 非常 重要 的 ,矩形 窗 的 谱 平 滑 性 较 好 ,但 
波形 细节 丢失 ,并 且 和 矩形 窗 会 产生 泄漏 现象 ; 而 汉 明 窗 可 以 有 效 地 克服 泄漏 现象 ,应 用 范围 
也 最 为 广泛 。 

2. 窗 函 数 长 度 

不 论 什么 样 的 窗口 , 窗 的 长 度 对 能 否 反映 语音 信号 的 幅度 变化 起 决定 性 作用 。 如 果 NN 
特别 大 , 即 等 于 几 个 基 音 周期 量 级 , 则 窗 胃 数 等 效 于 很 军 的 低 通 滤 波 需 ,此 时 信号 短 时 信息 
将 缓慢 地 变化 ,因而 也 就 不 能 充分 地 反映 波形 变化 的 细节 ; 反之 ;如果 N 特别 小 , 即 等 于 或 
小 于 一 个 基 音 周期 的 量 级 , 则 信号 的 能 量 将 按照 信号 波形 的 细微 状况 而 很 快 地 起 伏 。 但 
如 果 N 太 小 ,滤波 肯 的 通 带 变 宽 , 则 不 能 得 到 较为 平 请 的 短 时 信息 ,因此 窗口 的 长 度 要 选 
择 合 适 。 窗 的 衰减 基本 上 与 窗 的 持续 时 间 无 关 , 因 此 当 改 变 宽度 N 时 ,只 会 使 带宽 发 生 
变化 。 

前 面 的 窗口 长 度 是 相对 于 语音 信号 的 基 首 周期 而 言 的 。 通 党 认为 一 个 语音 帧 内 ,应 
含有 1 一 7 个 基 音 周期 。 然 而 不 同人 的 基 音 周期 变化 范围 很 大 , 基 音 周期 的 持续 时 间 会 
从 高 音调 (女性 或 儿童 ) 的 约 20 个 采样 点 (采样 频率 为 10kHz) 变 化 到 很 低音 调 ( 男 性 ) 的 
250 个 采样 点 ,这 意味 着 在 进行 分 析 时 可 能 需要 多 个 不 同 的 N 值 ,所 以 六 的 选择 比较 困 
难 。 通 常 在 采样 频率 为 10kHz 的 情况 , N 选择 在 100 一 200 量 级 (10 一 20ms 持续 时 间 ) 是 合 
适 的 。 
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对 数 幅度 /dB 


0 0.1 0.2 0.3 0.4 0.5 
频率 /上 Hz 
(a) 算 形 窗 的 傅 里 时 变换 


对 数 幅 度 /dB 


0 0.1 0.2 0.3 0.4 0.5 
笑 率 /> 
(b) 汉 明 窗 的 傅 里 叶 变换 


图 3-3 ”和 钴 形 窗 和 汉 明 和 窗 的 全 里 叶 变 换 


3.2 语音 信号 的 时 域 分 析 


对 信号 分 析 最 自然 .最 直接 的 方法 是 以 时 间 为 目 变 量 进 行 分 析 ,语音 信号 典型 的 时 域 特 
征 包 括 短 时 能 量 . 短 时 平均 过 零 率 、 短 时 目 相 关系 数 和 短 时 平均 幅度 差 等 。 在 这 一 节 中 主要 
对 这 些 时 域 的 特征 及 它们 的 具体 应 用 加 以 介绍 。 

典型 的 语音 信号 特性 是 随 着 时 间 变 化 而 变化 的 。 例 如 ,浊音 和 清音 之 间 激 励 的 改变 ,会 
使 信号 峰值 幅度 有 很 大 的 变化 ; 在 浊音 范围 内 基 频 有 相当 大 的 变化 。 在 一 个 声音 信号 的 波 
形 图 中 ,这 些 变化 十 分 明显 ,所 以 要 求 能 用 简单 的 时 域 处 理 技术 对 这 样 的 信号 特征 给 以 有 效 
的 摘 述 。 


3.2.1 短 时 能 量 分 析 


语音 信号 的 能 量 随 着 时 间 变 化 比较 明显 ,一 般 清 音 部 分 的 能 量 比 浊音 的 能 量 小 得 多 。 语 
音信 号 的 短 时 能 量 分 析 给 出 了 反映 这 些 幅 度 变 化 的 一 个 合适 的 描述 方法 。 对 于 信号 {x(n)}， 
短 时 能 量 的 定义 如 下 : 


ti 


_ 可 [zwn Om m) | = > rm)hn—m) = rn h(n) (3-12) 


TH 二 一 = 


其 中 ,有 h(n) 二 ww (n),E, 表示 在 信号 的 第 nn 个 点 开始 加 衡 负 数 时 的 短 时 能 量 。 可 以 看 出 , 短 
时 能 量 可 以 看 作 声 音信 号 的 平方 经 过 一 个 线性 滤波 大 的 输出 ,该 线性 滤波 船 的 单位 冲 激 啊 
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应 为 h(n) ,如 图 3-4 所 示 。 

冲 激 啊 应 h(n) 的 选择 ,或 者 说 窗 靖 数 的 选择 ”Xm) x (n) 人 
决定 了 短 时 能 量 表示 方法 的 特点 。 为 了 反映 窗 郴 图 3-4” 短 时 能 量 的 方块 图 表示 
数 选 择 对 短 时 能 量 的 影响 ,假设 式 (3-12) 中 的 
h(n) 非 党 长 ,是 为 恒定 幅度 ,那么 EF, 随时 间 的 变化 将 很 小 ,这 样 的 窗 就 等 效 为 很 罕 的 低 通 
滤波 句 。 很 明显 ,我 们 要 求 的 是 对 语音 信和 号 进行 低 通 滤波 ,但 还 不 是 很 罕 的 低 通 滤波 ,至少 
短 时 能 量 应 能 反映 语音 信号 的 幅度 变化 。 因 此 出 现 了 窗 长 选取 上 的 矛盾 ,这 种 矛盾 将 在 语 
音信 号 的 短 时 表示 方法 的 研究 中 反复 出 现 。 即 希望 有 一 个 短 时 窗 ( 冲 激 响 应 ) 以 响应 快速 的 
幅度 变化 。 但 是 , 太 罕 的 窗 将 得 不 到 平滑 的 能 量 函 数 。 并 且 窗 水 数 的 形状 和 长 短 直 接 影 响 
着 短 时 能 量 的 性 质 。 如 果 用 x,(n) 表 示 x(n) 经 过 加 窗 人 处 理 后 的 信号 , 窗 汕 数 的 长 度 为 NN， 
短 时 能 量 可 表示 为 

E, = i Ci 

短 时 能 量 主要 有 以 下 几 个 方面 的 应 用 : 首先 利用 短 时 能 量 可 以 区 分 清音 和 浊音 ,因为 
浊音 的 能 量 要 比 清 音 的 能 量 大 得 多 ;, 其 次 可 以 用 短 时 能 量 对 有 声 段 和 无 声 段 进行 判定 ,对 
声母 和 韵母 分 界 , 以 及 连 字 的 分 界 等 。 在 语音 识别 系统 中 , 短 时 能 量 一般 也 作为 特征 中 的 一 
维 参数 来 表示 声音 信号 的 能 量 大 小 和 超 音 段 信 息 。 

短 时 能 量 由 于 是 对 信号 进行 平方 运算 ,因而 人 为 增加 了 高 低 信 和 号 之 间 的 差距 ,在 一 些 应 
用 场合 不 太 适 用 。 解 决 这 个 问题 的 简单 方法 是 采用 短 时 平均 幅 值 来 表示 能 量 的 变化 ,其 公 

ca "十 NM 一 1 


JW 一 >» | zm) | wln—m) = > | (3-14) 


这 里 用 加 窗 后 信号 的 绝对 值 之 和 代替 平方 和 ,使 运算 进一步 简化 。 短 时 平均 幅 值 的 实现 如 


加 3-D5 所 示 a 
= h(n) M, 
Xx(71) Wi x(n) MD) 


图 3-5 短 时 平均 幅度 的 方块 图 


3.2.2 ” 短 时 平均 过 零 率 


短 时 平均 过 雪 率 是 语音 信号 时 域 分 析 中 最 侧 单 的 一 种 特征 。 顾 名 思 义 , 它 是 指 每 帧 内 
信号 通过 零 值 的 次 数 。 对 于 连续 语音 信号 ,可 以 考察 其 时 域 波形 通过 时 间 轴 的 情况 。 对 于 
离散 信和 号 ,实质 上 驶 是 信号 采样 点 符号 杰 化 的 次 数 。 如 采 是 正弦 信号, 它 的 平均 过 雪 率 驶 是 
信号 的 频率 除 以 两 倍 的 采样 频率 ,而 及 样 频率 是 固定 的 ,因此 过 和 雪 率 在 一 定 程度 上 可 以 反映 
出 频率 的 信息 。 博 音信 号 不 是 简单 的 正弦 序列 ,所 以 平均 过 零 率 的 表示 方法 驶 不 那么 确切 。 
然而 短 时 平均 过 和 零 率 仍然 可 以 在 一 定 程 度 上 反映 其 频谱 性 质 , 可 以 通过 短 时 平均 过 和 零 率 获 
得 谱 特 性 的 一 种 粗略 估计 。 短 时 平均 过 零 率 的 公式 为 


CI 
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3 2 | sgnLzu(m)] 一 sgn[ze(m 一 1)] | (3-15) 


一 站 


式 中 ,sgn|，。 是 符号 图 数 , 印 


1s Tn) 宇 0 
sgn| xCny) | = | (3-16) 
(一 1， x(n) < 0 


图 3-6 给 出 了 短 时 平均 过 舌 率 的 计算 过 程 。 可 以 看 出 ,首先 对 请 首 信号 序列 z(2) 进行 
成 对 处 理 ,检查 是 否 有 过 雪 现 象 , 奋 有 符号 变化 , 则 表示 有 一 次 过 堆 现 象 ; 然后 进行 一 阶 差 
分 计算 , 取 绝 对 值 ; 最 后 进行 低 通 滤波 。 


图 3-6 得 时 平均 过 堆 率 的 计算 


短 时 平均 过 零 率 可 以 用 于 语音 信号 分 析 。 在 发 浊音 时 , 声 市 振动 ,因而 声 门 激励 是 频率 
为 基 频 的 声 压 波 , 它 在 经 过 声 道 时 产生 共振 。 尽 管 声 道 有 若干 个 共振 峰 , 但 由 于 声 门 的 影 
啊 ,其 能 量 分 布 主要 集中 在 3kHz 频率 范围 内 ; 反之 ,在 发 清音 时 声 市 不 振动 , 声 拓 的 茶 部 
分 受到 阻塞 产生 类 日 噪声 的 油 励 ,该 激励 通过 声 站 后 能 量 集中 在 比 浊 音 时 更 高 的 频率 范围 
内 。 因 此 ,浊音 时 的 能 量 集中 于 低频 段 ,而 清音 的 能 量 集中 在 高 频段 。 巾 于 短 时 平均 过 零 率 
可 以 在 一 定 程 度 上 反映 频率 的 高 低 , 因 此 在 浊音 段 , 一 般 具 有 较 低 的 过 去 率 , 而 在 清音 段 具 
有 较 高 的 过 去 率 , 这样 可 以 用 短 时 平均 过 去 率 来 初步 判断 清音 和 浊音 。 然 而 这 种 高 低 仅 是 
相对 而 言 的 ,没有 精确 的 数值 天 系 。 

男 外 ,可 以 将 短 时 平均 过 零 率 和 短 时 能 量 绪 合 起 来 判断 语音 起 止 点 的 位 置 , 即 进行 端点 
检测 。 在 背景 噪声 较 小 的 情况 下 , 短 时 能 量 比 较 准 确 , 但 当 背 景 噪 声 较 大 时 , 短 时 平均 过 和 堆 
率 可 以 获得 较 好 的 检测 效果 。 因 此 ,一 般 的 识别 系统 ,其 前 端的 端点 检测 过 程 都 是 将 这 两 个 
参数 结合 用 于 检测 语音 是 否 真 的 开始 。 短 时 平均 过 去 率 的 另 一 个 用 途 是 作为 语音 频 域 分 析 
的 一 个 中 间 步 又。 方法 是 不 用 窗口 型 的 低 通 滤波 需 来 处 理 过 去 ,而 改 用 多 通道 的 市 通 滤 波 
需 , 这 时 的 输出 就 是 频 域 的 短 时 平均 过 零 率 ,如 果 加 上 用 带 通 滤 波 需 的 短 时 能 量 的 输出 ,就 
可 以 得 到 语音 信号 的 频 域 分 析 结 果 。 

从 上 面 定 义 出 发 计算 的 短 时 平均 过 零 率 容 多 受到 低频 的 干扰 。 解 决 这 个 问题 的 一 种 方 
法 是 对 上 述 定 义 做 一 个 简单 的 修改 , 即 设立 一 个 门限 工 , 将 过 零 率 的 含义 修改 为 路 过 正 负 门 
限 的 次 数 , 如 图 3-7 所 示 。 


门限 3 上 ----------------- er ee 
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门限 1 品 本 上 门 一 一 一 生 一 一 一 一 一 ER 
[门限 1 下 rt er od ae ty, ee esi jst tenns ant 时 间 
TR 闻 a 

门限 3 三 ---------------------- 一 一- 和 


图 3-7 门限 短 时 平均 过 和 零 率 
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十 | sgn[ zm) 十 工 | 一 sgnl rt 一 1 十 了 | |}w(n Cm) (3-17) 
这 样 计 算 的 短 时 平均 过 雪 座 加 有 一 定 的 抗 干扰 能 力 。 即 使 存在 小 的 随机 了 品 声 ,只 要 它 不 超 
过 正 、 负 门限 所 构成 的 市 , 驶 不 会 产生 虚假 过 雪 率 。 在 霹 音 识别 前 端 检测 时 还 可 以 采用 多 门 
限 过 零 率 ,可 进一步 改善 检测 效 打 。 


3.2.3” 短 时 自 相关 函数 和 短 时 平均 幅度 差 函 数 


1. 自 相关 函数 

- 般 情 况 下 ,相关 函数 用 于 测定 两 个 信号 在 时 域内 的 相似 程度 ,可 以 分 为 互相 关 函 数 和 
自 相 关 函 数 。 互 相关 函数 主要 研究 两 个 信号 之 间 的 相关 性 ,如 果 两 个 信号 完全 不 同 、 相 互 独 
立 , 那 么 互相 关上 困 数 接近 于 零 ; 如 果 两 个 信号 的 波形 相同 , 则 互相 关 呆 数 会 在 超前 和 小 后 处 
出 现 峰 值 , 可 据 此 求 出 两 个 信号 之 间 的 相似 程度 。 目 相关 图 数 主要 用 于 研究 信号 本 刁 的 同 
步 性 .周期 性 。 这 里 主要 讨论 和 目 相关 函数 的 性 质 及 应 用 。 

对 于 离散 的 语音 数字 信号 x(n), 它 的 自 相 关 函 数 的 定义 如 下 : 


oo 
RCR) = > zm) rmtk) 各 和 
如 果 信 号 是 随机 的 或 周期 的 ,这 时 的 定义 为 
有 CR) = lm 2N TT 之/ (mm)rm Ek) (3-19) 


式 (3-18) 和 式 (3-19) 表 示 一 个 信号 和 延迟 & 点 后 的 该 信号 本 身 的 相似 程度 。 在 任何 一 
种 情 疙 下 ,信号 的 目 相关 图 数 都 是 描述 信号 特性 的 一 种 方便 的 方法 。 它 具有 很 多 性 质 : 

(1) 如 宁 信 号 zGz) 具 有 周期 性 ,那么 它 的 目 相 关 图 数 也 具有 周期 性 ,并 且 周 期 与 信号 
x(n) 的 周期 相同 ; 

(2) 上 自 相关 函数 是 一 个 侦 罚 数 , 即 R(k) 一 R( 一 ); 

(3) 当 &=0 时 , 自 相 关 函 数 具 有 最 大 值 , 即 信 号 和 日 己 本 号 的 日 相关 性 最 大 。 并 且 这 
时 的 日 相关 函数 值 是 确定 信号 的 能 量 或 随机 信号 的 平均 功率 。 

从 这 些 性 质 可 以 看 到 ,日 相 关 商 数 相 当 于 一 个 特殊 情况 下 的 能 量 ; 而 更 为 重要 的 是 ,月 
相关 晴 数 提供 了 一 种 获取 周期 性 信号 周期 的 方法 。 可 以 看 出 ,在 周期 信号 周期 的 整数 们 上 ， 
代 的 日 相关 靖 数 可 以 达到 最 大 值 。 即 可 以 不 用 考虑 信和 号 的 起 娘 时 间 , 而 从 日 相关 函数 的 第 
-个 最 大 值 的 位 置 来 佑 计 其 周期 ,这 个 性 质 使 目 相 关 晴 数 成 为 估计 各 种 信号 周期 的 一 个 依 
据 。 因 此 ,将 目 相 关 函 数 的 定义 用 到 语音 信号 处 理 上 ,以 获得 其 短 时 目 相 关 函 数 的 表示 是 十 
分 重要 的 ; 这 就 是 下 面 将 介绍 的 短 时 日 相关 卫 数 。 

2. 短 时 自 相 关子 数 

短 时 月 相关 函数 是 在 前 面 自 相 关 靖 数 的 基础 上 将 信号 加 窗 获 得 的 , 即 
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式 中 ,n 表示 窗 函 数 是 从 第 nn 点 开始 加 入 。 通 过 上 述 对 自 相 关 函 数 的 分 析 易 于 证 明 ,R,(k) 
是 偶 函 数 , 即 R,(k) 二 R,( 一 &); R,(k) 在 k= 二 0 时 具有 最 大 值 ,并 且 R, (0) 等 于 加 窗 语 音信 号 


的 能 量 。 
如 果 定 义 
h(n) = wn)w(n — £) (3-21) 
那么 式 (3-20) 可 以 写 为 
-3 
Rk) = Dr Tm rm — kh,(n—m) (3-22) 


该 式 表明 ,序列 zxln 一 上) 经 过 一 个 冲 激 响 应 为 到 (zz) 的 滤波 器 滤波 后 得 到 上 述 的 目 相 
关 函 数 , 将 其 用 图 3-8 表示 如 下 。 


x(n) 


x(n—fk) 


R,(k) 


图 3-8 短 时 目 相 关 函 数 的 计算 


如 果 zx() 是 一 个 浊音 性 的 周期 信号 ,那么 从 上 自 相关 函数 的 性 质 可 知 , 其 短 时 自 相 关 矣 
数 也 是 呈现 出 明显 的 周期 性 ,并 且 它 的 周期 与 原 信 号 本 和 号 的 周期 相同 。 相 反 , 清 首 是 接近 于 
随机 噪声 ,其 短 时 晶 相 关 限 数 不 具 有 周期 性 ,并 随 大 的 增 大 而 迅速 减 小 。 因 此 可 以 利用 这 
一 特点 决定 一 个 浊音 的 基 音 周期 。 
图 3-9 给 出 了 三 个 日 相关 函数 的 例子 ,这 是 在 N= 二 401 时 用 10kHz 采样 频率 获得 的 语 
音 计 算 的 上 月 相关 图 数 ,并 分 别 计 算 了 渍 后 为 0 三 & 研 250 时 的 上 月 相关 值 。 前 两 种 情况 是 对 浊 
音 语 音 段 ,而 第 三 种 情况 是 对 一 个 清音 段 。 由 图 3-9(a) .图 3-9(b) 可 见 , 对 应 于 浊音 语音 的 
日 相关 函数 ,具有 一 定 的 周期 性 。 在 相隔 一 定 的 杀 样 后 ,日 相关 晴 数 达到 最 大 值 。 在 图 3-9(c) 
上 上 月 相关 因数 设 有 很 踢 的 周期 峰值 ,表明 在 信号 中 缺乏 周期 性 ,这 种 清音 请 音 的 月 相关 图 数 
有 一 个 类 似 噪 声 的 波形 ,有 点 像 霹 音信 号 本 身 。 浊 音 语 音 的 周期 可 用 上 和 目 相 关 男 数 中 的 第 一 
个 峰值 的 位 置 来 估算 。 在 图 3-9(a) 中 ,峰值 约 出 现在 72 的 倍数 上 ,由 此 估计 出 该 浊音 的 基 
音 周 期 为 7. 2ms 或 为 140Hz 左右 的 基 频 。 在 图 3-9(b) 中 ,第 一 个 最 大 值 出 现在 第 58 个 采 
样 的 倍数 上 , 它 表 明 平 均 的 基 音 周期 约 为 5. 8ms。 
在 语音 信号 处 理 中 ,计算 日 相关 函数 所 用 的 窗口 长 度 与 计算 短 时 能 量 时 的 情况 略 有 不 
同 。 这 里 ,NN 值 全 少 要 大 于 基 音 周期 的 两 倍 , 否 则 将 找 不 到 除 R(0) 外 最 近 的 一 个 最 大 值 点 。 
男 一 方面 ,N 值 也 要 尽 可 能 地 小 ,因为 语音 信号 的 特性 是 变化 的 ,N 过 大 将 影 啊 短 时 性 。 巾 
于 请 首 信 号 的 最 小 基 频 为 80Hz, 因 而 其 最 大 周期 为 12. 5ms, 两 倍 周期 为 25ms, 所 以 10kHz 
采样 时 窗 宽 N 为 250 个 采样 点 。 因 此 , 当 用 日 相关 了 靖 数 估算 基 音 周期 时 ,NN 不 应 小 于 250。 
由 于 基 音 周期 的 范围 很 宽 , 所 以 应 使 窗 宽 匹 配 于 预期 的 基 音 周期 。 对 基 音 周期 较 长 的 信号 ， 
使 用 较 罕 的 窗 将 得 不 到 预期 的 基 音 周期 ; 而 对 基 音 周期 较 短 的 信号 ,使 用 较 宽 的 窗 , 自 相关 
i i ` 要 的 。 为 此 ,可 及 用 基于 基 音 周期 的 自 适 应 
窗口 长 度 法 ,但 是 这 种 方法 比较 复杂 。 为 了 解决 这 个 问题 ,可 用 “修正 的 短 时 日 相关 函数 ”来 
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(c) 清音 语音 


图 3-9 三 种 自 相 关 函 数 


代 符 短 时 目 相 关上 图 数 。 
修正 的 短 时 目 相 关 函 数 定义 为 


R,(k) = rw nmr mt kw n— moO—k) (000) 
或 
RR) = > rtmw mzr nt m+ kw, (m+ Ek) (3-24) 


与 上 面 公式 相 比 ,不 同 的 是 两 个 窗 函 数 用 了 不 同 的 长 度 。 可 以 选取 ws (n) 使 其 包括 wi (n) 
去 间隔 以 外 的 采样 ,比如 在 百 角 窗 时 ,可 以 使 


ls 0 过 六 过 了 一 1 
wi (m) = | (3-25) 
1]， 0 和 过 11 过 人 一 1] 十 及 
wy (m) = | (3-26) 
因此 ,修正 有 目 相 关 图 数 可 以 写 为 
N—1 
R_(k) = Drnt+m)zrnt+m+tk) (3-27) 


式 中 ,k 是 最 大 的 延迟 点 数 。 
修正 短 时 日 相关 子 数 和 短 时 和 目 相 关 卫 数 计 算数 据 之 间 的 差别 如 图 3-10 所 示 。 其 中 
图 3-10(a) 表 示 一 个 语音 波形 ; 图 3-10(b) 表 示 由 一 个 矩形 窗 选 取 的 N 个 采样 点 ; 图 3-10(c) 
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表示 N 十 K 长 度 的 矩形 窗 选 取 的 采样 点 。 严 格 地 说 ,修正 自 相 关 函 数 是 两 个 不 同 的 有 限 请 
音 段 zx 十 m)wi (Gm) 和 zn 十 m)wl(m) 的 互相 关 函 数 。 因 而 ,R, (8) 具 有 互相 关 函 数 的 特 
性 ,而 不 再 是 一 个 自 相关 函数 ,例如 R, (4) 关 R,( 一 k&)。 然 而 R, (k) 在 周期 信号 的 周期 倍数 上 
有 峰值 ,所 以 与 R,(0) 最 近 的 第 二 个 最 大 值 点 仍 表 示 基 音 周期 的 位 置 。 


[nn [EW [A 人 na 
RADA NA AI DASA I DAA A 


(a) 语音 波形 


X(Ntm wi(n) 


(b) 由 矩形 窗 选 取 的 N 个 米 样 点 


X(Nn—m)wa(m) 


(c) 长 度 为 (N+ 的 矩形 窗 选 取 的 采样 点 
图 3-10 修正 短 时 目 相 关 函 数 计算 中 两 个 不 同 长 度 的 短 时 信号 说 明 


3. 短 时 平均 幅度 差 函 数 

短 时 自 相 关 函 数 是 语音 信号 时 域 分 析 的 重要 参数 ,但 是 计算 短 时 自 相 关 函 数 需 要 很 大 
的 计算 量 ,其 原因 是 乘法 运算 所 需 的 时 间 较 长 。 人 简化 计算 目 相 关 男 数 的 方法 有 很 多 ,但 都 无 
法 避免 来 法 运算 。 为 了 避免 来 法 运算 , 币 稍 采用 态 一 种 与 上 月 相关 男 数 有 类 侯 作 用 的 参量 , 即 
短 时 平均 幅度 差 银 数 。 它 是 基于 这 样 一 个 想法 ,对 于 一 个 周期 为 PP 的 单纯 的 周期 信号 做 差 


分 , 即 
dn rn (nO) (3-28) 
则 在 ==0, 士 P, 十 2P,… 时 , 式 (3-28) 将 为 零 。 即 当 上 与 信号 周期 吻合 时 ,作为 dl(n) 的 短 时 
平均 幅度 值 总 是 很 小 ,因此 短 时 平均 幅度 差 丽 数 的 定义 为 
十 NN 一 二 1 
7y,(k) = > | Eom CC (mm) | (3-29) 


对 于 周期 性 的 x(n) ,为 CR) 也 呈现 周期 性 。 与 R,(k) 相 反 的 是 ,在 周期 的 各 整数 们 点 上 

a en 因此 在 浊音 语 首 的 基 音 周期 上 ,y,(k) 会 急速 下 降 , 而 在 

清音 语音 时 不 会 有 明显 的 下 降 。 由 此 可 见 , 短 时 平均 幅度 差 函 数 也 可 以 用 于 基 音 周期 的 检 
测 ,而 且 计 算 上 比 短 时 月 相 关 方 法 更 为 简单 。 
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3.2.4 端点 检测 和 话音 分 冯 


在 许多 语音 信号 处 理 任务 中 需要 判断 一 段 输入 信 叶 中 哪些 是 语音 段 , 哪 些 是 无 声 段 。 
例如 在 语音 识别 中 ,正确 地 判定 输入 语音 的 起 点 .终点 对 于 提高 识别 率 往 往 是 非常 重要 的 。 
在 一 些 语 音 识别 或 低速 语音 编 解 码 器 应 用 中 ,对 于 已 经 判别 为 语音 段 的 部 分 ,还 需要 进一步 
判断 清音 和 浊音 。 这 些 问题 可 以 称 为 有 声 /无 声 判 决 , 以 及 更 细致 的 无 声 (S)/ 清 音 CU)/ 浊 
音 (V) 判 决 。 

能 够 实现 这 些 判 决 的 依据 在 于 ,不 同性 质 语音 的 各 种 短 时 参数 具有 不 同 的 概率 密度 疝 
数 , 以 及 相 邻 的 奋 干 帧 语音 应 具有 一 致 的 语音 特性 ,它们 不 会 在 S\U、V 之 间 随 机 地 跳 来 
跳 去 。 

在 孤立 词语 音 识别 系统 中 ,需要 正确 判断 每 个 输入 声音 的 起 点 和 终点 ,利用 短 时 平均 由 
度 参 数 M 和 短 时 平均 过 零 率 Z 可 以 做 到 这 一 点 。 首 先 , 根 据 浊 音 情 况 下 的 短 时 平均 幅度 参 
数 的 概率 密度 函数 POCOM|IV) 确 定 一 个 国 值 参数 Ma ,Ma 值 一 般 定 得 较 高 。 当 一 帧 输入 信和 号 
的 短 时 平均 幅度 参数 超过 Ma 时 ,可 以 判定 该 帆 语 音信 号 不 是 无 声 , 而 有 相当 大 的 可 能 是 浊 
音 。 根 据 Ma 可 判定 输入 语音 的 前 后 两 个 点 Al 和 As。 在 A! 和 As 之 间 的 部 分 肯定 是 请 
音 段 ,但 语音 的 精确 起 点 终点 还 要 在 Ai 之 前 和 As 之 后 仔细 查找 ,如 图 3-11 所 示 。 


图 3-11 利用 短 时 平均 幅度 和 短 时 平均 过 和 零 率 判定 语 首 的 起 点 和 终点 


为 此 ,再 设 定 一 个 较 低 的 国 值 参数 Mi ,由 Ai 点 癌 前 找 , 当 短 时 平均 幅度 由 大 到 小 减 至 
Mi 时 ,可 以 确定 点 Bl 。 类 似 地 ,可 以 由 A; 点 癌 后 找 , 确 定 B, 点 。 在 B; 和 B, 之 间 仍 能 上 有 
定 是 语音 段 。 然 后 由 Bi 疝 前 和 Bs 回 后 ,利用 短 时 平均 过 夫 率 进行 搜索 。 根 据 无 声 情况 下 
的 短 时 平均 过 零 率 ,设置 一 个 参数 Z,, 如 果 由 Bi 回 前 搜索 , 短 时 平均 过 零 率 大 于 2 的 3 
倍 , 则 认为 这 些 信 号 仍 属 于 语音 段 , 下 到 短 时 平均 过 零 率 下 降 到 低 于 3 倍 的 Z,, 这 时 的 点 Ci 
就 是 语音 的 精确 的 起 点 。 对 于 终点 做 类 似 的 处 理 , 可 以 确定 终点 Cs 。 采 用 短 时 平均 过 零 率 
的 原因 在 于 ,点 Bi 以 前 可 能 是 一 段 清 辅 音 , 它 的 能 量 相 当 弱 , 依 徘 能 量 不 可 能 将 它们 与 无 声 
段 分 开 。 而 对 于 清 辅 音 来 说 ,它们 的 过 零 率 明显 高 于 无 声 段 ,因而 能 用 这 个 参数 将 二 者 区 分 
开 潍 ， 

研究 结 东 表明 ,利用 短 时 平均 过 去 率 来 区 分 无 声 和 清音 在 有 些 情况 下 不 是 很 可 蚕 。 由 
于 清音 的 踢 度 会 比 无 声 段 局 一 些 , 将 门限 提高 一 些 对 于 清音 的 影响 不 大 ,但 在 没有 背景 噪声 
的 情况 下 ,无声 段 将 不 会 穿越 这 一 提高 的 电 平 ,因而 可 以 正确 地 区 分 清音 和 无 声 段 ,因此 采 
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用 式 (3-17) 所 示 的 过 和 零 认 进 行 判 断 更 加 可 靠 。 
除了 上 述 用 短 时 平均 幅 值 和 短 时 平均 过 雪 率 来 进行 清 浊音 判断 之 外 ,还 可 以 在 求 取 基 
首 周 期 时 ,利用 基 首 周期 存在 写 耕 来 判断 是 浊 首 还 是 清 首 。 


3.3 语音 信号 的 频 域 分 


语音 的 感知 过 程 与 人 类 听觉 系统 具有 频谱 分 析 功 能 是 紧密 相关 的 。 因 此 ,对 语音 信和 号 
进行 频谱 分 析 , 是 认识 语音 依 号 和 处 理 语 音信 号 的 重要 方法 。 所 采用 的 分 析 方 法 有 很 多 ,下 
面 介绍 滤波 器 组 分 析 方 法 和 傅 里 叶 分 析 方 法 。 

3.3.1 滤波 器 组 万 法 

利用 一 组 滤波 器 来 分 析 语 音信 号 的 频谱 ,是 最 早 采 用 的 频谱 分 析 方 法 之 一 。 这 种 方法 
使 用 简单 .实时 性 好 、 受 外 界 环 境 的 影响 小 ,所 以 至 今 这 one nl elm 
滤波 右 组 法 所 用 的 滤波 器 可 以 是 模拟 滤波 更 ,也 可 以 是 数字 滤波 右 。 滤 波 右 可 以 用 宽 囊 
通 滤波 器 ,也 可 以 用 穿 带 带 通 滤波 器 。 poet ep eo tld 
语音 的 频谱 ,其 频率 分 辩 率 降低 ,相当 于 短 时 处 理 时 窗 宽 罕 的 那 种 情况 。 使 用 窄带 带 通 滤波 
天 ,其 频率 分 辨 率 提 高 ,相当 于 短 时 处 理 时 窗 锅 较 览 的 那 种 情况 。 图 3-12 为 市 通 滤 波 豆 组 
法 频谱 分 析 原 理 图 。 


图 3-12 ”滤波 上 圳 组 法 频谱 分 析 原 理 图 


语音 信号 zt 输入 市 通 滤 波 需 放 ，, fo，* ,滤波 大 输出 为 具有 一 和 定 频 市 的 中 心 频 率 
为 万 ,F 矿 的 信号 。 图 3-12 eh 写 ,不 便于 计算 机 做 分 析 处 
理 。 可 以 将 沪 波 器 组 的 输 册 经 日 适应 增 量 调制 带 变 为 二 进 制 脉冲 信号 ,上 骨 经 过 多 路 开关 ， 
变 为 一 串 二 进 制 脉冲 信号 。 这 种 信号 可 以 输入 计算 机 进行 各 种 分 析 和 处 理 。 


3.3.2 全 里 叶 频 谱 分 析 


傅 里 叶 频 谐 分 析 是 声音 信号 频 域 分 析 中 广泛 采用 的 一 种 方法 。 它 是 法 国 科 学 家 
J. Fourier 在 1807 年 为 了 得 到 热传导 方程 的 简便 解法 而 提出 的 。 傅 里 叶 变 换 在 电气 工程 等 
领域 得 到 了 广泛 的 应 用 ,很 多 理论 研究 和 应 用 研究 ,都 把 傅 里 叶 变 换 当 作 最 基本 的 经 典 工 具 
来 使 用 。 傅 里 时 频谱 分 析 是 分 析 线 性 系统 和 和 平稳 信号 稳 态 特性 的 强 有 力 的 工具 ,这 种 以 复 
指数 函数 为 基 了 范 数 的 正 交 变换 ,理论 上 很 完善 ,计算 上 很 方便 ,概念 上 易于 为 人 们 理解 ,在 语 
音信 号 处 理 上 也 是 一 个 非常 重要 的 工具 。 


第 3 章 语音 信号 的 特征 分 析 | 5 


傅 里 叶 频 谱 分 析 的 基础 是 傅 里 叶 变 换 , 用 傅 里 叶 变 换 及 其 反 变 换 可 以 求 得 傅 里 叶 谱 .月 
相关 函数 功率 谱 , 倒 谱 。 由 于 语音 信号 的 特性 是 随 着 时 间 缓 慢 变 化 的 ,由 此 引出 的 语音 信 
写 短 时 分 析 。 如 同 在 时 域 特征 分 析 中 用 到 的 一 样 ,这 里 的 傅 里 叶 频 谱 分 析 也 采用 相同 的 短 
时 分 析 技 术 。 

信号 x(n) 的 短 时 全 里 叶 变 换 定义 为 


[人 二 


mY = 3 (mw nm— me (3-30) 


1 = 


式 中 ,zw(n) 为 窗口 商 数 。 

可 以 从 两 个 角度 理解 函数 X,(o) 的 物理 意义 : 一 是 当 n 固定 时 ,例如 二 no,X,(w) 是 
将 窗 函 数 的 起 点 移 至 n。 处 截取 信号 x(n) ,上 青 做 傅 里 叶 变 换 而 得 到 的 一 个 频谱 函数 。 这 是 
直接 从 频率 轴 方 向 来 理解 的 。 二 是 从 时 间 轴 方向 来 理解 , 当 频 率 固 定时 ,例如 w= wi， 
X, (ws) 可 以 看 作 是 信号 经 过 一 个 中 心 频率 为 ws 的 市 通 滤波 希 产 生 的 输出 。 这 是 因为 窗口 
函数 ww(n) 通 常 具 有 低 通 频率 响应 ,而 指数 er“% 对 语音 信号 x (nm) 有 调制 的 作用 ,可 使 频谱 产 
生 移 位 ,即将 zz) 频谱 中 对 应 于 频率 os 的 分 量 平移 jn 
到 零 频 。 这 时 的 短 时 傅 里 时 变换 可 以 理解 为 如 
图 3-13 所 示 的 市 通 滤波 器 的 作用 。 

在 实际 计算 时 ,一 般 用 离散 傅 里 叶 变 换代 替 连 图 3.13 ”从 带 通 滤波 器 作用 理解 短 
续 傅 里 叶 变 换 , 这 就 需要 对 信和 号 进行 周期 性 扩展 , 即 时 健 里 叶 变 换 
把 zx(n)rw(n) 看 成 某 个 周期 信号 的 一 个 周期 ,然后 对 
它 做 离散 傅 里 叶 变 换 , 这 时 得 到 的 是 功率 谱 。 值 得 注意 的 是 ,如 果 窗 长 为 L, 那 么 zx(n)w(n) 
的 长 度 为 工 , 而 R,(k) 的 长 度 为 2L。 如 果 对 x(n)w(n) 以 L 为 周期 进行 扩展 ,在 自 相关 域 就 
会 出 现 混 有 登 现象 , 即 这 个 周期 图 数 的 循环 相关 困 数 在 一 个 周期 中 的 值 就 与 线性 相关 R,(k) 
的 值 不 同 ,这 样 得 到 的 功率 谱 只 是 真正 功率 谱 的 一 组 从 采 样 , 即 世 个 采样 值 。 若 想得到 功 
率 谱 的 全 部 2L 个 值 , 可 以 在 zCz)w(2z) 之 后 补充 工 个 零 , 将 其 扩展 成 周期 为 2 的 信号 ,并 
做 离散 傅 里 叶 变 换 。 这 时 的 循环 相关 与 线性 相关 是 等 价 的 。 

图 3-14 给 出 了 了 几 种 典型 情况 下 男性 元 音 的 短 时 频谱 。 可 以 看 出 ,通过 傅 里 叶 变 换 得 到 
的 元 音 短 时 频谱 中 ,存在 一 定数 量 的 峰值 。 为 了 说 明 这 个 情况 ,假设 zx, (m) 在 窗 之 外 依然 保 
持 一 种 周期 性 ,其 周期 为 M, 对 于 这 样 类 周期 信号 的 z(7z) ,对 应 的 傅 里 叶 级 数 的 系数 为 
X, (CR), 则 其 对 应 的 频谱 应 该 是 一 系列 的 冲 油 图 数 和 , 即 


X,(w) = > X,(R)GCw — 2rk/M) ls 


假设 窗子 数 w(m) 对 应 的 全 里 叶 变 换 表 示 为 


W(w) = >》 wm)e to) 


FF = OI 


则 w(xn 一 区 ) 对 应 的 频 请 为 WC(w)e ，”。 因 此 在 时 间 域 信号 的 乘积 zx(m)w(n 一 m) 在 频 域 上 
变 成 卷 积 关 系 , 即 
X,(o) = >) KX, RWI )eico-enbMOn 的 


下 一 一 局 


X,(w) 可 以 看 作 是 幅 值 由 X,(R) 控 制 的 右 干 个 窗 果 数 的 频谱 在 每 个 谐 波 上 和 平移 后 的 县 
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加 。 这 种 谐 波 特性 就 体现 在 图 3-14 的 窄带 峰值 上 (间隔 接近 2x/M)。 
5000 


时 间 /s 
0 0U.U05 O01] 0.01s 0.02 0.023 0.03 0.033 0.04 0.043 0.03 
(a) 基 频 为 ] 10Hz 元 音 /ahy 的 时 间 信和 号 


20 20 
0 1000 2000 3000 4000 0 1000 2000 3000 4000 
(b) 30ms 的 矩形 窗 得 到 的 短 时 频谱 (c) 15Sms 的 矩形 窗 得 到 的 短 时 频谱 


L 20 一 
0 “1000 2000 3000 4000 0 1000 2000 3000 4000 
(d) 30ms 汉 明 窗 得 到 的 短 时 频谱 (e) 15ms 汉 明 窗 得 到 的 短 时 冉 谱 


图 3-14 男性 元 音 对 应 的 短 时 频谱 


在 窗 函 数 分 析 中 ,我 们 知道 对 于 任 一 个 窗 函 数 都 存在 状 沁 效应 。 一 般 可 以 对 窗子 数 的 

频谱 近似 如 下 : 
Wlw) 0, |w—w, |X (3-34) 

对 于 和 窍 形 窗 轴 数 , 窗 长 为 N ,A 二 2x/N。 如 果 N 宇 M, 表 明 一 个 窗 消 数 至 少 包 含 了 一 个 
: 音 周 期 , 则 式 (3-34) 成 立 。 图 3-14 为 基 音 周期 为 M 二 71, 采 样 率 为 8kHz 的 男声 。 这 里 
窗 长 30ms 对 应 N= 二 240, 窗 长 15ms 对 应 N= 二 120, 因 此 图 3-14(b) 和 图 3-14(c) 均 会 表现 出 
这 种 谐 波 效应 ,并 且 窗 长 越 小 ,对 应 频谱 的 主办 越 宽 。 但 对 汉 明 窗 , 窗 长 为 N ,A==4x/N， 
这 就 要 求 一 个 窗 至 少 包 含 两 个 基 音 周期 , 即 N 三 2M, 图 3-14(d) 满 足 这 个 条 件 , 因 此 仍然 
可 以 看 到 谐 波 特性 。 而 对 于 图 3-14(e) ,这 个 条 件 不 再 满足 ,因而 谐 波 特性 表现 得 就 不 
明显 。 

前 面 讨论 了 短 时 傅 里 叶 变 换 , 从 分 析 中 得 到 语音 信号 的 短 时 谱 X,(w)。 下 面 简 要 讨论 
如 何 由 X,(w) 来 恢复 信号 x(n) ,这 就 是 短 时 傅 里 叶 反 变换 。 傅 里 叶 变 换 建 立 了 信号 从 时 域 
到 频 域 的 变换 桥梁 ,而 傅 里 叶 反 变换 则 建立 了 信号 从 频 域 到 时 域 的 变换 桥梁 ,这 两 个 域 之 则 
的 变换 为 一 对 一 映射 关系 。 

我 们 知道 ,X,(o) 可 以 看 作 加 窗 后 困 数 的 傅 里 时 变换 ,为 了 实现 反 变 换 , 将 X,(w) 进行 
频率 采样 , 即 令 wi 一 2xk/L, 则 有 


X, (wi) 一 3 [x Cm)wln 一 1) je ™” (3-35) 


式 中 ,L 为 频率 采样 点 数 。 
将 X, (wi) 在 时 域 n 上 每 隔 尺 个 样本 采样 , 则 可 令 


es 


和 (3-36) 
用 这 些 Y, (wi ) 求 出 其 离散 傅 里 叶 反 变换 y,(n), 即 
LI 一 1 
YC 一 DMACALS Es 
k=0 
和 而 
+o0 
y(n) = > Vy,(n) (3-38) 
可 以 证 明 ,x(n) 和 y(n) 之 间 只 相差 一 个 比例 因子 ,它们 的 关系 如 下 : 
ytn) = zn WO0)/R ee 
即 
R To Ll 
zx(n) 一 2 (3-40) 
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在 短 时 健 里 叶 变 换 的 基础 上 ,可 以 得 到 短 时 功率 谱 。 短 时 功率 谱 实 际 上 是 短 时 傅 里 叶 

变换 幅度 的 平方 ,不 难 证 明 , 它 是 信号 x(n) 的 短 时 自 相关 函数 的 傅 里 叶 变 换 , 即 
P,(w) 一 | X,(w) |2 = > R, (ke (3-41) 

式 中 , 民 ,(R) 是 前 面 讨论 的 自 相 关 函 数 。 

短 时 功率 谱 是 二 维 非 负 的 实 值 函 数 。 用 时 间作 为 横 坐 标 ,频率 作为 纵 坐 标 ,将 短 时 功率 
谱 的 值 表 示 为 灰 度 级 所 构成 的 二 维 图 像 就 是 第 2 草 中 提 到 的 语 详 图 。 下 面 介 绍 博 谐 图 中 的 
时 间 分 辩 率 和 频率 分 辨 率 。 这 里 分 辩 率 是 指 对 信和 号 所 能 做 出 辨别 的 时 域 或 频 域 的 最 小 间 
隔 。 对 时 域 具有 了 瞬 变 的 信号 ,希望 时 域 的 分 辩 率 要 高 ,即时 域 的 观察 间隔 尽量 短 , 以 保证 能 
观察 到 该 瞬 变 信号 发 生 的 时 刻 及 瞬 变 的 形态 。 对 频 域 具有 两 个 或 多 个 靠 得 很 近 的 谱 峰 信 
号 ,希望 频 域 的 分 辩 率 要 高 , 即 频 域 的 观察 间隔 尽量 短 , 短 到 小 于 两 个 谱 峰 的 距离 ,以 保证 能 
观察 这 两 个 或 多 个 谱 峰 ， 

语 谱 图 中 的 时 间 分 辩 率 和 频率 分 辩 率 是 由 所 采用 的 窗 函 数 来 决定 的 ,按照 式 (3-30) 的 
第 一 种 解释 ,假定 时 间 固 定 ,对 信和 号 乘 以 窗 函 数 相当 于 在 频 域 用 窗 函 数 的 频率 响应 与 信号 频 
谱 的 卷 积 。 如 果 窗 函数 的 频率 响应 W(w) 的 通 带 宽度 为 65, 那么 语 谱 图 中 的 频率 分 辩 率 的 宽 
度 即 为 5。 即 卷 积 的 作用 将 使 任何 两 个 相隔 频率 小 于 5 的 谱 峰 合并 为 一 个 单 峰 。 因 为 对 于 
同一 种 窗 函 数 而 言 ,其 通 带 宽度 与 窗 长 成 反比 。 因 此 ,如 果 和 希望 频率 分 状 率 高 , 则 窗 长 应 该 

对 于 时 间 分 辩 率 ,按照 式 (3-30) 的 第 二 种 解释 ,假定 频率 固定 ,对 信号 乘 以 窗 函 数 的 作 
用 ,相当 于 对 时 间 序 列 x (2)ew™: 做 低 通 滤波 。 其 输出 信号 的 带宽 就 是 w(n) 的 带宽 5。 根 据 
采样 定理 ,这 时 只 需要 以 22 为 采样 率 就 可 以 充分 反映 出 信号 的 所 有 频率 成 分 ,可 见 它 所 有 具 
有 的 时 间 分 辨 率 冤 度 为 1/(25)。 因 此 ,如 果 和 希望 时 间 分 辨认 高 , 则 窗 长 应 该 尽量 取 短 些 ， 
由 此 可 见 , 时 间 分 辩 率 和 频率 分 辨 率 是 相互 矛盾 的 ,这 也 是 短 时 傅 里 叶 变 换 本 身 固 有 的 
缺点 。 

基于 上 述 分 析 ,在 语 谱 图 中 分 为 窄带 语 谱 图 和 宽带 语 谱 图 两 种 。 罕 带 语 谱 图 用 于 获得 
较 高 的 频率 分 辩 率 ,而 宽带 语 谱 图 可 以 获得 较 高 的 时 间 分 辩 率 。 

除了 前 述 的 短 时 傅 里 叶 变换 频谱 和 功率 谱 之 外 ,还 有 对 数 功 率 谱 以 及 倒 谱 等 。 其 中 对 
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数 功 座 详 就 是 将 功率 请 取 对 数 , 而 倒 详 是 将 功率 详 取 对 数 后 进行 傅 里 叶 反 变换 ,关于 倒 详 的 
具体 内 容 在 3.7 太 评 细 介 绍 。 图 3-15 为 几 种 谱 之 间 的 关系 。 
傅 里 叶 变 换 


时 
时 间 信号 |- 闻 里 时 谱 
ET 


二 | 传 里 叶 变 抽 
自 相关 函数 
从 里 叶 反 变换 传 里 叶 反 变换 

图 3-15” 几 种 基于 短 时 傅 里 叶 变 换 谱 之 间 的 关系 


传 里 叶 变质 


c(n) 倒 谱 


对 数 功率 谱 


3.4 传统 传 里 叶 变 换 缺 点 及 时 频 分 析 的 思想 


一 般 信 号 都 是 随 厦 时 间 的 变化 而 发 生变 化 ,要 这 和 理解 信号 的 本 质 , 需 要 从 多 个 角度 研 
究 信 和 号 的 不 同 表现 方式 。 时 域 和 频 域 是 观察 信号 的 两 种 方式 ,时 域 分 析 和 频 域 分 析 技 术 也 
是 目前 信号 处 理 的 主要 方法 。 时 域 分 析 方 法 完全 是 在 时 间 域 中 分 析 信 号 ,时 间 分 辨 率 理论 
上 可 以 达到 无 穷 大 ,但 频率 分 辨 率 为 去 ,而 频 域 分 析 方 法 则 相反 。 一 般 在 频 域 里 分 析 信号 可 
以 得 到 更 多 的 信息 ,因此 以 往 人 们 更 重视 在 频 域 内 对 信号 加 以 分 析 。 

日 牛顿 以 来 ,人 们 各 信和 和 回 往 世界 的 稳定 性 、 规 则 性 、 和 谐 性 以 及 本 夺 上 的 便 单 性 。 侍 
里 叶 分 析 就 体现 了 这 种 信念 。 基 于 传 里 叶 变 换 的 信和 号 频 域 表 示 及 其 能 量 的 频 域 分 布 揭示 了 
言 写 在 频 域 上 的 特征 。 事 实 上 , 傅 里 叶 变 换 是 一 个 强 有 力 的 数学 工具 , 它 具 有 重要 的 物理 意 
义 , 即 信号 的 傅 里 叶 变 换 表 示 信 号 的 频谱 。 正 是 傅 里 叶 弯 换 这 样 重要 的 物理 意义 ,决定 了 传 
里 叶 变 换 在 信和 号 分 析 和 信号 处 理 中 的 独特 地 位 ,特别 是 它 可 作为 平稳 信号 分 析 的 最 重要 的 
工具 。 然 而 在 实际 应 用 中 ,所 遇 到 的 信号 大 多 数 并 不 是 平稳 的 ,至 少 在 观测 的 全 部 时 间 段 内 
它 不 是 平稳 的 ,所 以 随 着 应 用 范围 的 偿 步 扩大 和 理论 分 析 的 不 断 深 入 , 傅 里 叶 变 换 的 局 限 性 
就 渐渐 展示 出 来 。 主 要 表现 在 如 下 三 个 方面 。 

1. 传统 傅 里 时 变换 的 时 间 分 辨 率 为 零 

传统 傅 里 叶 变 换 的 本 质 在 于 , 它 将 一 个 任意 的 函数 表示 为 一 族 标 准 函 数 的 加 权 和 , 即 正 
强 晴 数 的 加 权 和 。 其 中 的 权 遇 数 便 是 原来 限 数 的 傅 里 叶 变 换 。 这 样 就 将 对 原来 函数 的 研究 
转化 为 对 其 权 中 数 , 即 其 傅 里 叶 变 换 的 研究。 由 于 这 些 正 台 靖 数 的 频率 是 固定 不 变 的 ,并 且 
其 波形 是 无 始 无 终 的 ,因此 不 难看 出 , 傅 里 时 分 析 只 适 于 分 析 信 号 组 成 分 量 的 频率 不 随时 间 
变化 的 平稳 信号 ,分 析 结 果 也 仪 能 换 示 一 个 信号 是 由 多 少 个 正 强 波 登 加 而 成 的 ,以 及 各 正 强 
波 的 相对 幅度 ,但 不 能 给 出 任何 有 关 这 些 正弦 波 何 时 出 现 与 何 时 消亡 的 信息 。 因 此 ,经 和 典 的 
傅 里 时 分 析 是 一 种 纯 频 域 分 析 。 理 论 上 频率 分 辨 卒 可 以 达到 无 穷 大 ,但 时 域内 无 任何 分 辩 
能 力 , 即 时 域 信 息 完 全 丧失 。 傅 里 叶 变 换 不 能 反映 信号 在 各 个 指定 时 刻 的 附近 所 乔 望 的 任 
何 频率 范围 内 的 频谱 信息 ,这 无 论 在 理论 上 还 是 在 实际 中 都 融 来 了 许多 困难 和 不 便 。 从 理 
论 上 说 ,为 了 用 傅 里 叶 变 换 来 猎 究 一 个 时 域 信号 的 频谱 特性 ,就 必须 获得 信号 在 时 域 中 的 全 
部 信息 ,甚至 将 来 的 信息 。 
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2. 传统 傅 里 时 变换 基于 信和 号 平稳 的 假设 

对 于 平稳 信号 ,时 域 分 析 和 频 域 分 析 方 法 都 是 有 将 的 。 传 统 傅 里 叶 变 换 的 频谱 分 析 是 
建立 在 信号 平稳 假设 的 基础 上 。 然 而 ,在 许多 实际 应 用 场合 ,信号 不 是 平稳 的 ,其 统计 量 是 
随时 间 变 化 的 图 数 。 许 多 天 然 的 和 人 工 的 信号 ,诸如 语音 、 生 物 医学 信号 .音乐 .雷达 和 声呐 
信和 号、 在 色散 媒质 中 传播 的 波 、 机 械 振动 和 动物 叫 声 等 都 是 典型 的 非 平 稳 信 号 ,其 特点 是 持 
续 时 间 有 限 ,并 且 是 时 变 的 。 对 于 这 种 时 变 信 号 ,必须 研究 其 在 时 域 和 频 域 中 的 全 貌 和 局 部 
性 质 , 既 要 能 总 体 上 把 握 信号 ,又 要 能 深入 到 信号 局 部 中 分 析 信 号 的 非 平 稳 性 ,这 样 才 能 提 
取 更 多 的 特征 信息 。 这 时 ,只 了 解 信 号 在 时 域 或 频 域 的 全 局 特性 是 远 远 不 够 的 ,希望 得 到 的 
是 信号 频谱 随时 间 变 化 的 情况 。 

3. 传统 傅 里 叶 变 换 在 全 频 域 范围 内 分 辩 率 相同 

因为 一 个 信号 的 频率 与 它 的 周期 成 反比 ,所 以 在 应 用 中 ,一 个 合理 的 要 求 是 ,对 于 待 分 
析 信 号 的 高 频 信 息 ,其 参与 分 析 的 信号 时 间 长 度 应 相对 较 短 ,以 给 出 精确 的 高 频 成 分 ; 而 对 
于 待 分 析 信 号 的 低频 信息 ,参与 分 析 的 信号 时 间 长 度 应 相对 较 长 ,以 给 出 一 个 周期 内 完整 的 
言 息 。 即 要 能 给 出 一 个 对 信号 进行 分 析 的 灵活 多 变 的 时 间 和 频率 函数 ,使 得 由 它 给 出 的 时 
域 和 频 域 的 联合 窗口 函数 宽度 具有 如 下 的 制约 关系 : 在 中 心 频 率 高 的 地 方 , 时 间 窗 自动 变 
罕 ,而 在 中 心 频率 低 的 地 方 ,时 间 窗 应 目 动 变 冤 。 然 而 ,全 里 叶 变 换 是 一 种 整体 变换 , 它 在 整 
体 上 将 信号 分 解 为 不 同 的 频率 分 量 ,而 对 信号 的 表征 要 么 完全 在 时 域 ,要 么 完全 在 频 域 。 作 
为 频 域 表 示 的 功率 谱 , 并 不 能 反映 出 某 种 频率 分 量 出 现在 什么 时 候 以 及 其 变化 情况 。 此 外 ， 
从 应 用 的 角度 来 看 ,如 果 一 个 信号 只 在 某 一 时 刻 的 一 个 小 的 范围 内 发 生变 化 ,那么 信号 的 整 
个 频谱 都 要 受到 影响 ,而 频谱 的 变化 从 根本 上 来 说 又 无 法 标定 发 生变 化 的 时 间 位 置 和 发 生 
变化 的 剧烈 程度 , 即 傅 里 叶 变 换 对 信号 的 局 部 畸变 没有 标定 和 度量 的 能 力 。 在 许多 实际 的 
应 用 中 ,畸变 正 是 我 们 所 关心 的 信号 在 局 部 范围 内 的 特征 ,比如 对 于 音乐 和 语音 信号 ,人们 
关心 的 是 什么 时 候 演 奏 什 么 音符 、 发 出 什么 音节 。 

为 了 分 析 和 处 理 非 平稳 信号 ,人 们 对 傅 里 叶 变 换 进 行 了 推广 ,提出 并 发 展 了 一 系列 新 的 
信号 分 析 理 论 。 联 合 时 频 分 析 ( 简 称 时 频 分 析 ) 就 是 其 中 一 种 重要 的 方法 。 它 着 眼 于 真实 信 
号 组 成 成 分 的 时 变 谱 特征 ,将 一 个 一 维 的 时 间 信 号 以 二 维 的 时 间 - 频 率 密度 函数 形式 表示 
出 来 。 时 频 分 析 的 基本 思想 是 设计 时 间 和 频率 的 联合 函数 ,用 该 函数 同时 描述 信号 在 不 同 
时 间 和 频率 的 能 量 密度 和 强度 。 这 种 分 析 方 法 旨 在 揭示 信号 中 包含 多 少 频 率 分 量 , 以 及 每 

-分 量 是 怎样 随时 间 变 化 的 。 信 号 的 时 频 表 示 方 法 是 针对 频谱 随时 间 变 化 的 确定 性 信号 
非 平 稳 的 随机 信号 发 展 起 来 的 。 它 将 一 维 时 域 信号 x(n) 或 频 域 信号 X(Co) 映 射 成 为 时 间 频 
率 平 面 上 的 二 维 信 号 ,即使 用 时 间 和 频率 的 联合 函数 来 表示 信号 ,这 种 表示 简称 为 信号 的 联 
合 时 频 表 示 。 


3.4.1 信号 的 时 频 表示 


传 里 叶 谱 和 功 座 详 部 是 信号 变换 到 频 域 的 一 种 表示 ,对 于 频谱 不 随时 间 变 化 的 确定 信 
号 及 平稳 的 随机 信号 ,可 以 用 它们 进行 分 析 和 处 理 。 但 当 信 号 的 频谱 随时 间 变 化 时 , 它 不 能 
表示 条 个 时 刻 信号 的 频谱 分 布 情况 ,因此 这 种 分 析 方 法 就 存在 看 严重 的 不 足 。 

针对 频谱 随时 间 变 化 的 确定 信号 和 非 平 稳 随 机 信号 ,近年 来 出 现 了 信号 的 时 频 域 表示 
方法 ,如 前 面 3. 3 节 中 介绍 的 短 时 健 里 叶 变 换 方 法 等 。 其 日 的 是 将 一 维 的 时 间 信 号 x(n) 或 
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频 域 信号 六 (w) 映 射 成 时 间 - 频 率 平 面 上 的 二 维 信 号 P,(n,w)。 这 样 ,信号 的 瞬时 能 量 和 功 
普 可 以 分 别 表示 为 


| 芝 () |* 二 | P, (ns,w) do (3-42) 


| XC(w) |? = P, (ns,w) 人 


= 二 一心 别克 


而 信号 在 时 频 域 zE[Lm ,nz ],wELw ,ws | 的 能 量 成 分 表示 为 
> P,(n,w) 


n=] a 


可 以 根据 函数 P,(n,w) 计 算 在 某 .特定 时 间 的 频率 密度 ， 计算 该 分 布 的 整体 和 局 部 的 
各 阶 窍 等 。 然 而 ,在 寻求 理想 的 时 频 表 示 方 法 时 却 遇 到 了 很 大 的 困难 。 因 为 理想 的 已 . (7 ， 
wo) 应 该 表示 信和 号 在 时 间 频 率 点 (2z,ow) 处 的 能 量 密度 。 然 而 ,根据 下 面 即 将 介绍 的 不 确定 性 
不 允许 有 “ 某 个 特定 时 间 和 频率 处 的 能 量 ” 这 一 概念 ,这 样 理想 的 P,(n,w) 并 不 存在 。 
此 ,只 能 人 研究 伪 能 量 密度 或 时 频 绪 构 , 根 据 不 同 的 要 求 和 不 同 的 性 能 去 通 近 理想 的 时 频 
py 
人 们 提出 了 多 种 时 频 表 示 方 法 ,它们 各 有 优 缺 点 。 这 些 时 频 表示 方法 主要 有 线性 时 频 
表示 、 二 次 时 频 表示 以 及 其 他 形式 的 时 频 表示 方法 。 
1. 线性 时 频 表示 
这 一 类 时 频 表 示 是 由 傅 里 叶 详 演化 而 来 的 ,其 特点 是 变换 为 线性 的 。 由 于 傅 里 叶 谱 具 
有 线性 变换 的 性 质 , 如 果 信 号 之 间 满 足 线 性 关系 ,那么 它们 的 谱 畏 数 之 间 同 样 满 足 这 样 的 线 
性 关系 , 即 
Tn) = ar nn) 十 Go (n) (3-44) 
则 
X(w) = aXi(w) as NX,(w) 《= 
其 中 ,XX(w) ,Xi1(w) 和 半 ;(w) 分 别 是 x0(2) ,xi(n) 和 xz (ln) 的 傅 里 叶 变 换 ; al 和 as 为 稼 数 。 
因此 ,由 傅 里 叶 谱 演化 而 来 的 线性 时 频 表 示 也 同样 满足 这 样 的 线性 关系 。 当 zi1(n) 和 xs(n) 
的 频谱 是 随时 间 变 化 时 ,其 时 频 表 示 P。 (ao) 和 P- Cao) 是 线性 变换 的 , 则 有 
P trnvw) 一 Se (ns.0w) 4 (ns0w) (3-46) 
其 中 ,P,(n,w) 是 xX(n) 的 时 频 表 示 。 
属于 这 类 的 时 频 表示 主要 有 前 面 讲 述 的 短 时 傅 里 叶 变 换 与 Gabor 变换 及 小 波 变 换 等 。 
其 中 , 短 时 傅 里 时 变换 和 Gabor 变换 是 一 种 加 窗 的 傅 里 叶 变 换 , 使 用 固定 大 小 的 时 频 网 格 ， 
时 频 网 格 在 时 频 平 面 上 的 变化 只 限于 时 间 平 移 和 频率 平移 。 在 短 时 健 里 叶 变 的 和 Gabor 
变换 这 两 种 时 频 表 示 中 , 窗 困 数 宽 度 是 固定 的 ,其 时 频 分 辨 座 也 是 固定 的 ,因此 只 适用 于 分 
析 具 有 带宽 固定 不 变 的 非 平 稳 信 号 。 而 实际 应 用 中 , 常 硕 望 在 对 低频 成 分 分 析 时 ,频率 的 分 
辩 率 高 一 些 ; 对 高 频 成 分 分 析 时 ,时 间 的 分 辩 率 局 一 些 ; 这 怠 要 求 窗 曙 数 的 蜗 度 能 随 肴 频 
率 杰 化 而 变化 。 小 波 变 换 的 时 频 分 析 网 格 的 变化 除了 时 间 平 移 外 ,还 有 时 间 和 频率 轴 比 例 
尺度 的 改变 , 它 使 用 长 宽大 小 不 一 的 长 方形 时 频 分 析 网 格 , 因 而 适用 于 分 析 具 有 固定 比例 市 
锅 的 非 平稳 信号 。 
2. 二 次 时 频 表 示 
这 类 时 频 表 示 是 由 能 量 详 或 功率 说 演化 而 来 的 ,其 特点 是 变换 为 二 次 的 (也 称 为 双 线 性 
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的 )。 能 量 谱 或 功率 谱 具 有 双 线 性 变换 特性 , 即 当 信号 之 间 满 足 式 (3-46) 的 线性 关系 , 则 能 
量 谱 图 数 之 间 为 如 下 的 双 线 性 关系 : 
ew) 一 | a | eC0w) 十 | a | 2 00) 2Rel aa 大 (Cw) XK Cw) | (3-47) 
其 中 ,e(w) ,sl(o) 与 es (w) 分 别 为 x(n) zi(n) 和 zs(n) 的 能 量 谱 ; * 号 表示 对 信号 的 频谱 取 
共 示 操作 。 这 样 , 当 xi1(7) 和 xs(n) 的 频谱 随时 间 变 化 时 ,根据 能 量 谱 或 功率 谱 得 到 的 时 频 
表示 i (n,w) 和 和 有 (nsw) 是 二 次 的 , 则 有 
P_{(nsw) 一 | ai i (nw) 十 | as FR (nw) 十 2Rel aia; | (nsw) | (3-48) 
其 中 ,P;(n,w) 是 x(n) 的 时 频 表示 ; 右边 最 后 一 项 为 区 义 项 或 互 项 ; P, (nyw) 为 x1(n) 和 
Xo(n) 的 互 时 频 表 示 。 
维 格 纳 分 布 是 这 类 时 频 表 示 中 非 闸 重要 的 一 种 。 际 此 之 外 ,还 有 一 些 其 他 二 次 型 能 量 
化 的 时 域 表 示 , 可 以 统一 地 由 L. Cohen 提出 的 广义 双 线 性 时 频 表示 , 即 
P,(n,w) = 元 本 > 3 可 poDzl 而 Eh [: Fa Bj (3-49) 


二 一 WH 二 一 CE 二 一 心 己 


其 中 ,p(6,r) 表 示 核 图 数 , 它 决定 P,(n,w) 的 特性 。 

采用 不 同 的 核 国 数 ,将 得 到 不 同 的 时 频 分 布 。 对 核果 数 的 要 求 是 , 斋 望 既 能 压缩 交叉 干 
扰 项 ,又 能 有 好 的 特性 。 篆 用 的 Cohen 类 广义 双 线 性 时 频 分 布 有 指数 分 布 或 称 Choi- 
Williams 分 布 .三 义 指数 分 布 等 。 

3. 其 他 时 频 表 示 

除了 了 上述 线性 与 二 次 时 频 表示 外 ,还 有 一 些 其 他 形式 的 时 频 表 示 ,如 Cohen-Posch 类 正 
值 分 布 ,L. Stankovic 等 人 在 维 格 纳 分 布 基础 上 提出 的 L- 维 格 纳 分 布 等 。 此 外 ,比较 重要 的 
还 有 分 数 便 里 叶 变 换 等 。 在 下 面 的 章节 中 ,将 介绍 现在 应 用 研究 中 第 见 的 几 种 线性 时 频 表 
示 方 法 : 短 时 傅 里 叶 变 换 .Gabor 变换 .小 波 变 换 及 它们 的 联系 与 区 别 。 

总 之 ,对 给 定 的 信号 zz) ,人 们 硕 望 能 找到 一 个 二 维 图 数 Pj;(n,w), 它 应 是 人 们 最 关心 
的 两 个 物理 量 n 和 w 的 联合 分 布 印 数 , 可 以 反映 x(n) 的 能 量 随 时 间 n 和 频率 w 变化 的 形 
仿 , 同 时 ,又 希望 P;(n,w) 既 具有 好 的 时 间 分 辩 素 ,同时 又 具有 好 的 频率 分 辩 率 。 但 这 受到 
下 面 将 介绍 的 不 确定 原理 的 制约 。 


3.4.2 不 人 铺 定 原理 


在 信号 分 析 与 信号 处 理 中 ,信和 号 的 “时 间 中 心 ” 及 “时 间 宽 度 (time-duration)”, 以 及 频率 
的 “频率 中 心 ” 与 “频带 宽度 (frequency-bandwidth)” 是 非常 重要 的 概念 。 它 们 分 别 说 明 信 和 号 
在 时 域 和 频 域 的 中 心 位置 及 在 两 个 域内 的 扩展 情况 。 

如 果 分 别 用 w(n) 和 W(w) 来 作为 信号 的 时 域 和 频 域 表示 , 则 可 以 用 A(w) 和 A(W) 来 
分 别 衡 量 它们 的 宽度 ,分 别称 为 有 效 时 域 半 径 和 有 效 频 域 半 径 。 数 值 2A(w) 和 2A(W) 称 为 
窗口 函数 w(n) 的 有 效 时 宽 和 有 效 频 宽 , 而 用 E(w) 和 ECW) 表 示 它 们 的 中 心 。 这 里 中 心 和 
半径 分 别 表示 为 


上 es 


和 n| wn) | 


FE(zw) ee 


+ 
2 (nO— E(w)) | wn) | 


(3-50) 


lw | wl 
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Sw | Wer) | > Cw— EW)) | Wer) | 
一 
言 号 在 时 间 和 频率 这 两 个 物理 量 的 测量 上 有 一 个 重要 的 约束 原则 ,这 就 是 著名 的 “不 确 
定 原 理 ”, 或 称 为 “ 测 不 准 原理 ”。 它 的 意义 是 ; 信号 波形 在 频率 轴 上 的 扩张 和 在 时 间 轴 上 的 
扩张 不 可 能 同时 小 于 某 一 界限 , 即 若 函 数 w(n) 和 W(w) 构 成 一 对 傅 里 叶 变 换 , 则 它们 不 可 
能 同时 痢 是 短 和 宽度 的 , 即 
若 ww(n) 及 其 全 里 叶 变 换 W(w) 满 足 窗 口 清 数 的 条 件 , 则 


A A 3S 5 (3-52) 


这 里 等 号 成 立 的 充分 必要 条 件 是 w(n) 为 高 斯 函数 , 即 wn) 二 Ae-™ 
下 面 证 明 这 一 定理 。 如 果 将 ww(n) 的 导 函 数 的 仁 里 叶 变 换 记 为 W'(w), 那 么 由 傅 里 叶 
变换 的 性 质 可 以 得 到 


(‘3-51) 


W’(w) = (QJw)W (ow) (3-53) 
于 是 ,由 闭 名 的 柯 西 - 施 甩 次 (Cauchy-Schwarts) 不 等 式 得 
十 已 


十 ce 


a 
bp n | wn) | 。 > IW (ww) |’ 


fH 二 一 Oo 本 

外 让 本 | 
> 本 二 p> nw (n) rw (n) 
ki 


1 、 i 
a | 4 (> | wn) a = 地 
所 以 
A(w)A(W) 宇 靳 


在 上 面 推导 过 程 中 ,等 号 成 立 的 条 件 就 是 Cauchy-Schwarts 不 等 式 成 为 等 式 的 条 件 , 最 
后 ,通过 解 微 分 方程 可 以 得 到 全 部 的 证 明 。 

不 确定 原理 是 信号 处 理 中 的 一 个 重要 的 基本 定理 ,该 定理 指出 ,对 给 定 的 信号 ,其 时 筑 
与 市 宽 的 乘积 为 一 币 数 。 当 信号 的 时 宽 减 小 时 ,其 市 锅 将 相应 增 大 ,当时 寓 减 到 无 穷 小 时 ， 
市 完 将 变 成 无 穷 大 ， 例如 时 域 的 6 胃 数 ; 有 反之 亦 然 ,例如 时 域 的 正弦 信号 。 即 信号 的 时 完 与 
市 党 不 可 能 同时 趋 于 无 限 小 ,这 一 基本 关系 就 是 前 面 几 市 中 有 所 讨论 过 的 时 间 分 辩 对 和 频率 
分 辨 这 的 制约 关系 。 在 这 一 基本 关系 的 制约 下 ,人 们 在 竭力 探索 既 能 得 到 好 的 时 间 分 辨 卒 ， 
又 能 得 到 好 的 频率 分 辩 率 的 信号 分 析 方 法 。 


3.5 Gabor 变换 


传统 的 傅 里 时 分 析 适 合 于 平稳 信号 处 理 , 它 使 用 的 是 一 种 全 局 的 变换 。 因 此 ,传统 的 依 
里 叶 分 析 无 法 表达 信号 的 时 频 局 域 性 奈 。 为 了 分 析 和 人 处 理 非 平稳 信号 ;人们 基于 时 频 分 析 
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思想 提出 了 短 时 傅 里 叶 变 换 。3. 3 市 中 从 信号 处 理 的 角度 详细 介绍 了 短 时 传 里 叶 变 换 , 本 
记 将 从 时 频 分 析 的 角度 对 短 时 傅 里 时 变换 进行 总 绪 ,并 将 进一步 介绍 Gabor 变换 。 

前 面 介 绍 短 时 傅 里 叶 变 换 中 的 ”" 短 时 ” ,是 直接 延续 时 域 分 析 中 对 声音 的 分 帧 概念 而 引 
出 的 。 为 了 表示 信号 随时 间 变 化 的 频谱 ,采用 加 窗 的 技术 将 信号 在 时 间 上 分 成 许多 有 段 ,然后 
对 每 个 小 段 求 傅 里 叶 变 换 , 得 到 对 应 于 不 同时 刻 的 信号 的 频谱 ,这 是 短 时 全 里 叶 变 换 的 
思想 。 

假定 非 平稳 信号 在 一 个 较 短 的 分 析 窗 函数 内 是 平稳 ( 伪 平 稳 ) 的 ,移动 窗 图 数 ,使 信号 
在 不 同 的 有 限时 间 宽 度 内 为 不 同 的 伪 平 稳 信 号 , 则 可 以 计算 出 各 个 不 同时 刻 的 功率 谐 。 这 些 
傅 里 叶 变 换 的 集合 ,就 是 短 时 傅 里 叶 变 换 的 结果 ,显然 ,这 个 结果 是 时 间 变 量 和 频率 变量 的 
二 维 轴 数 , 实 际 上 ,在 短 时 全 里 叶 变 换 中 ,对 于 窗 函 数 有 一 定 的 要 求 , 设 包 (n) E L*(R), 即 为 
平方 可 积 空 间 的 函数 ,而 且 它 的 范 数 不 为 零 , 如 果 >，| nw (x) | 二 十 吕 , 则 称 w(n) 是 一 个 
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窗 函 数 , 这 时 窗 函 数 的 中 心 和 半径 分 别 如 式 (3-50) 和 式 (3-51) 所 示 。 其 中 的 窗 函 数 有 很 多 
种 选择 ,不 同 的 窗 消 数 , 对 应 不 同 的 变换 结果 ,如 3.1.2 亡 中 的 矩形 窗 函 数 、 汉 明 窗 函数 以 及 
汉 宁 窗 男 数 等 都 是 语音 信号 处 理 中 常用 的 窗 图 数 。 

男 外 ,从 时 频 分 析 的 角度 ,为 一 种 窗 函 数 一 一 高 斯 次 数 也 是 经 党 使 用 的 。 这 时 的 短 时 伟 
里 叶 变 换 称 为 Gabor 变换 。 

Gabor 在 1946 年 的 论文 中 ,为 了 提取 信号 的 包括 时 间 和 频率 两 方面 的 局 部 信息 ,引入 
了 一 个 时 间 局 部 化 的 “窗口 函数 ”。 所 取 的 窗 函 数 为 一 个 高 斯 罗 数 ,其 原因 有 二 ; 一 是 高 斯 
呐 数 的 傅 里 叶 变 换 仍 为 高 斯 痕 数 ,这 相当 于 傅 里 叶 反 变换 也 是 用 高 斯 洱 数 加 窗 的 ,同时 体现 
了 频 域 的 局 部 化 ; 二 是 Gabor 变换 作为 一 般 的 “窗口 函数 "具有 最 佳 性 ,这 是 在 不 确定 原理 
明确 之 后 才 看 出 来 的 , 即 在 时 频 窗 面积 最 小 的 意义 下 ,Gabor 变换 是 最 优 的 窗口 傅 里 叶 变 
换 。 一 般 认 为 只 有 在 Gabor 变换 出 现 后 , 才 有 了 真正 意义 上 的 时 频 分 析 。 

对 于 图 数 xz(n) ET (R), 其 Gabor 变换 的 定义 为 


(Gr,.(n;,w) 一 2 ZKr)g (tT—n)e (3-54) 


一 一 


本 
式 中 ,CD 一 exp[ 一 仑 } 是 高 斯 函数 ,a 是 大 于 零 的 固定 常数 。 


4a 


由 于 A 和 Gn;w) 二 外 (w) ,这 表明 ,信号 Xx(n) 的 Gabor 变换 


G.(n;w) 是 对 任何 a 二 0 在 时 间 zt==7n 附近 对 xz (n) 全 里 叶 变 换 的 局 部 化 ,对 于 任意 给 定 w EE 
尺 , 这 种 局 部 化 完成 得 很 好 ,达到 了 对 X(w) 的 精确 分 解 , 从 而 完整 地 给 出 了 xz(n) 频谱 的 局 
部 信息 ,充分 体现 了 Gabor 变换 在 时 间 域 的 局 部 化 思想 ，。 


对 于 任意 的 x(n) EL CR), 它 的 短 时 傅 里 时 变换 可 写 为 与 Gabor 变换 相似 的 形式 
Ci.(n,w) = b> TT)w’ (tT— ne (3-55) 


=—03 


实际 上 ,如 采 窗 图 数 记 (2) 的 傅 里 叶 变 换 也 满足 窗 图 数 的 条 件 , 那 么 短 时 傅 里 叶 变 换 同 
时 也 给 出 了 了 信号 zz) 在 如 下 时 频 窗 中 的 局 部 信息 : 
[E(w) 十 天 一 Am) 下 (zz) n+ Aw) | 。 LEW)To— AW),EW) wt ACW) 
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选 定 窗口 疯 数 w(n) 之 后 ,这 个 时 频 窗 是 一 条 边 与 坐标 轴 平 行 的 与 (n,w) 无 关 的 矩形 ， 
其 固定 的 面积 为 44A(w)A(W) ,该 窍 形 的 中 心 谷 标 为 (E(w) 十 n,ECW) 十 w)。 当 窗 胃 数 的 时 
域 中 心 和 频 域 中 心 都 在 原点 时 ,时 频 窗 的 中 心 正好 就 是 参数 对 (n,w) ,这 时 短 时 傅 里 叶 变 换 
就 真正 给 出 了 信号 在 时 间 点 n 附近 和 在 频率 点 w 附近 , 且 时 频 窗 为 如 下 形式 的 时 间 和 频率 
的 局 部 信息 : 


[aC—AC(w) ,nACw) | [wo AW),w AW) | 
这 也 是 称 它们 为 时 频 分 析 方 法 的 原因 所 在 。 

短 时 傅 里 时 变换 的 时 频 分 析 能 力 是 用 前 述 时 频 窗 和 矩形 的 面积 44A(w)A(W ) 来 衡量 。 在 
时 频 窗 的 形状 固定 不 变 时 , 窗 函 数 面 积 越 小 ,说 明 它 的 时 频 局 部 化 描述 能 力 越 强 ; 窗 困 数 面 
具 武 大 ,说明 它 的 时 频 局 部 化 描述 能 力 越 差 。 当 然 , 要 得 到 尽量 精确 的 时 频 局 部 化 描述 ,月 

然 硕 望 选择 使 时 频 窗 面积 44A(w)A(W) 尽 量 小 的 窗 函 数 。 但 是 ,不 确定 原理 说 明 这 种 潜力 
是 有 限度 的 。 

对 于 Gabor 变换 来 说 ,由 于 高 斯 图 数 g。(z) 及 其 傅 里 时 变换 G, (w) 都 满足 窗 函 数 的 要 
求 , 可 以 得 到 g, (nn) 对 应 的 时 频 窗 的 面积 4A(z)ACW) 王 2。 那 么 ,是 否 存在 比 Gabor 变换 所 
用 的 高 斯 图 数 具 有 更 好 的 时 频 局 部 化 描述 能 力 的 窗 图 数 呢 ? 由 前 面 的 不 确定 原理 可 以 知 
道 , 当 窗 函 数 w(n) 及 其 傅 里 叶 变 换 部 满足 窗 函 数 的 要 求 时 ,A(w)A(W) 三 1/2。 pr Gabor 

变换 是 具有 最 小 时 频 窗 的 短 时 傅 里 叶 变 换 , 这 反映 了 Gabor 变换 的 某 种 最 佳 性 。 这 里 
没有 考虑 到 时 频 窗 函数 形状 的 变化 与 信号 时 频 分 析 的 需要 之 间 的 关系 。 

总 之 ,作为 信号 分 析 的 工具 , 短 时 傅 里 叶 变 换 和 Gabor 变换 发 展 了 全 里 叶 变 换 , 能 够 满 
足 信 号 处 理 的 某 些 特殊 需要 。 但 进一步 的 研究 发 现 , 这 两 种 变换 都 没有 离散 的 正 交 基 。 这 
决定 了 它们 在 进行 数值 计算 时 ,没有 像 离散 傅 里 叶 变 换 中 FFT 那样 的 快速 算法 ,使 其 应 用 
受到 限制 ; 另 一 方面 ,当选 定 窗 曙 数 后 ,对 短 时 傅 里 叶 变 换 和 Gabor 变换 来 说 ,时 频 窗 也 数 
的 形状 是 固定 的 , 它 不 能 随 看 所 分 析 的 信号 成 分 是 高 频 还 是 低频 等 信息 做 相应 的 变化 ,而 非 
平稳 信号 都 包含 着 丰富 的 频率 成 分 ,所 以 它们 对 非 平稳 信号 分 析 能 力 是 有 限 的 。 

在 对 信号 做 时 频 分 析 时 ,一 般 对 快 变 的 信和 号 ,希望 它 有 较 高 的 时 间 分 辨认 以 观察 其 快 变 
部 分 ,如 尖 脉 冲 等 。 根 据 不 确定 原理 ,对 该 信号 频 域 的 分 辨 率 必 定 要 下 降 。 由 于 快 变 信 号 对 
应 的 是 高 频 信号 ,对 这 一 类 信号 及 用 较 高 的 时 间 分 辩 率 ,就 要 降低 频率 分 辨 卒 。 反 之 ,对 慢 
变 信号 ,由 于 它 对 应 的 是 低频 信号 ,所 以 希望 在 低频 处 有 较 高 的 频率 分 辨 率 , 但 不 可 避免 地 
要 降低 时 间 分 辩 率 。 

下 面 以 矩形 窗 为 例 来 说 明 短 时 傅 里 叶 变 换 的 时 频 特 性 。 一 个 宽度 为 无 穷 的 矩形 窗 ( 即 
耳 流 信号 ) 的 傅 里 叶 变 换 为 一 6 也 数 ,反之 亦 然 。 当 和 矩形 窗 为 有 限 宽 时 ,其 傅 里 叶 变 换 为 一 
困 数 , 即 

| 3 SN DA 


式 中 ,A 是 窗 函 数 的 高 度 ; N 是 其 单 边 宽度 。x(n) 和 其 频谱 X(wo) 如 图 3-16(a) 和 图 3-16(b) 
所 示 。 

显然 ,矩形 窗 的 宽度 N 和 其 频谱 主因 的 宽度 [ 一 i 由于 矩形 窗 在 信 
理 中 起 到 了 对 信号 截 短 的 作用 ,因此 , 知 信 号 在 时 域 取 得 越 短 , 即 在 时 域 保持 有 较 高 的 分 辩 


(3-56) 
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x(n) X(w) 
| 
NON n 
(a) 时 域 矩 形 窗 (b) 矩形 窗 的 频谱 


图 3-16 和 矩形 窗 及 其 频谱 


率 , 那 么 由 于 X(o) 的 主 锥 变 宽 ,因此 在 频 域 的 分 辩 率 必然 会 下 降 。 这 些 体 现 了 短 时 傅 里 叶 
变换 中 在 时 域 和 频 域 分 辨识 方面 有 所 固 有 的 了 矛盾。 我们 希望 能 用 时 频 分 析 算 法 有 目 动 适应 这 一 
要求 。 由 于 短 时 傅 里 叶 变 换 窒 数 的 有 效 时 宽 和 有 效 市 够 不 随 (z,o) 的 变化 而 变化 ,因而 
它 不 具备 这 一 日 动 调 市 的 能 力 。 下 面 将 要 讨论 的 小 波 变 换 则 具备 这 一 能 力 。 


3.6 小波 变换 在 语音 信号 分 析 中 的 应 用 


小 波 变换 是 20 世纪 80 年 代 中 后 期 逐渐 发 展 起 来 的 一 种 数学 分 析 方 法 , 它 一 出 现 就 受 
到 数学 界 和 工程 界 的 极 大 重视 。1984 年 法 国 科 学 家 频率 
J. Molet 在 分 析 地 震波 的 局 部 特性 时 ,首先 使 用 了 小 
波 变 换 来 对 信号 进行 分 析 , 并 提出 了 小 流 这 一 术语 。 
所 谓 小 波 , 就 是 小 的 波形 “小 ? 指 其 具有 萌 减 性 ， 
“ 波 ? 指 其 波动 性 , 即 小 洲 的 振幅 具有 振幅 正 负 相间 
的 振荡 形式 。 小 波 理 论 采 用 多 分 辨 率 分 析 的 思想 ， 
韭 均 匀 地 划分 时 频 空 间 , 例 如 图 3-17 所 示 的 划分 方 
法 , 它 使 信号 仍 能 在 一 组 正 交 基 上 进行 分 解 ,为 非 平 因 317 非 当 匀 地 记分 时 间 儿 和 所 学 钉 
稳 信 号 的 分 析 提 供 了 新 途径 。 


3.6.1 小 波 的 数学 表示 及 意义 


用 数学 形式 来 表述 小 波 , 小 波 就 是 两 数 空间 Lz CR) 中 满足 下 述 条 件 的 一 个 函数 或 者 信 
号 J(1); 


0 时 间 


a 
区 -| LW qs 
R |w| 


这 里 ,R* 一 R 一 10) 表 示 非 零 实 数 全 体 , 其 中 亚 (w) 为 y(z) 的 频 域 表示 形式 。y(7) 称 为 小 波 
母 图 数 。 对 于 任意 的 实数 对 (a,p) , 称 如 下 形式 的 图 数 为 由 小 波 母 图 数 生 成 的 依赖 于 参数 
(a,5) 的 连续 小 波 函 数 , 人 简称 小 流 。 其 中 参数 a 必须 为 非 零 实数 。 

a,b) (1) - (5 (3-58) 


人 


其 中 ,连续 性 指 参 数 对 (a,5) 可 以 连续 取 值 。. 特 ,2 不 断 地 变化 ,可 以 得 到 一 族 郴 数 J,, (7)。 
对 于 任意 的 参数 对 (a ,0)， 显然 | ye.w (1)dt = 二 0。 尺度 因子 a 的 作用 是 把 基本 小 波 y(z) 做 伸 
缩 .2 的 作用 是 确定 对 xz(z) 分 析 的 时 间 位 置 , 也 即时 间 中 心 ,yes (Ci 在 上 一 5 的 附近 存在 明 
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显 的 波动 ,而且 波动 的 范围 大 小 完 ME 因子 a 的 变化 , 当 a = 1 时 ,这 个 范围 与 原来 
的 小 波 函 数 Vi 的 范围 是 一 致 的 ; 当 a 二 1 时 ,这 个 范围 比 原来 的 小 波 函 数 Vi 的 范围 大 
些 ,小 波 的 波形 变 得 矮 宽 ,而 且 当 < 变 得 越 来 越 大 时 ,小 波 的 形状 变 得 越 来 越 宽 、 越 来 越 斤 ， 
整个 函数 的 形状 表现 出 来 的 变化 越 来 越 缓 慢 ; 当 0 二 a 二 1 时 ,ys(?) 在 :==6 a 
波动 的 范围 比 原来 的 小 波 母 函数 y(z) 的 波动 范围 要 小 ,小 波 的 波形 变 得 尖锐 而 清瘦, 当 a 记 0 
且 越 来 越 小 时 ,小 波 的 波形 渐渐 地 接近 于 脉冲 函数 ,整个 函数 的 形状 表现 出 来 的 变化 越 来 越 
快 .小波 函数 yii,s (7) 随 着 参数 a 的 这 种 变化 规律 ， OR 
任意 指定 点 处 的 任意 精细 结构 的 分 析 , 同 时 ,这 也 决定 了 小 波 分 析 在 对 非 平稳 信号 进行 时 频 
分 析 时 ,具有 对 时 频 同 时 局 部 化 的 能 力 。 

给 定 平方 可 积 的 信和 号 x(2), 即 x(1) EL2CR), 则 zz(1) 的 小 波 变换 定义 为 

W,(asb) = T(t) Wea, (Lt) dt le TED > ju (3-59) 

因此 ,对 任意 函数 z(b , 它 的 小 波 变换 是 一 个 二 元 图 数 ,这 与 傅 里 叶 变 换 不 同 。 另 外 ,因为 
小 波 母 函数 VCt) ee pnt 的 波动 ,在 远离 原点 的 地 方 , 限 数 
值 将 迅速 衰减 为 零 ,整个 波动 趋 于 平静 。 所 以 ,对 于 任意 的 参数 对 (a,05) ,小 波 函 数 ys (1) 
在 上 一 /的 附近 存在 明显 的 波动 ,远离 1 二。 的 地 方 将 迅速 地 衰减 到 零 。 因 而 ,从 形式 上 可 以 
看 出 ,小波 变换 的 数值 W, (a,5) 表 明 的 实质 是 原来 函数 xz(2) 在 1 二 5 附近 按照 wa (2) 进行 加 
权 平 均 , 体 现 的 是 以 gis (2) 为 标准 快慢 的 zx(7) 变 化 情况 。 这 样 ,参数 5 表示 分 析 的 时 间 中 
心 或 时 间 点 ,而 参数 a 体现 的 是 以 上 一 2 为 中 心 的 附近 范围 的 大 小 。 因 此 , 当 2 固 定 不 变 时 ， 
小 波 变 换 WW, (a ,5) 体 现 的 是 原来 的 函数 在 一 已 附近, 随 着 分 析 和 观察 的 范围 逐渐 变化 时 表 
现 出 来 的 变化 。 

假设 小 波 函 数 多 蕊 及 其 傅 里 叶 变 换 亚 (w) 都 满足 窗口 函数 的 要 求 ,它们 的 窗口 中 心 和 
半径 分 别 记 为 E(y) 和 A(y) 与 E(W) 和 A( 秋 ) ,可 以 证 明 对 于 任意 参数 对 (a,5) ,连续 小 波 
(ti 及 其 傅 里 叶 变 换 严 an (w) 都 满足 窗口 函数 的 要 求 , 它 们 的 窗口 中 心 和 宽度 分 别 为 


/ 下 (wrap ) 一 十 ab (wy) 
| (3-60) 
A(wya,s ) 一 一 aA(y) 
和 
EF( Vy) ) EFE(V)/a 
| (3-61) 
4 pa 3 aA(V)/a 


因此 ,对 于 连续 小 波 yo,» (2) 的 时 间 窗 为 
[btaE) —aA(D btHaE TaA(y) | 
其 频率 窗 为 
证 | 
a a a a 
因此 可 以 看 出 ,连续 小 波 yo,s (了?) 的 时 频 窗 是 时 频 平 面 上 一 个 可 变 的 矩形 , 它 的 时 频 窗 的 面 
积 为 


人 


24aA(C0) X 一 一 一 4ACODACT) (3-62) 


这 个 面积 只 与 小 波 的 母 函 效 Ee 参数 对 (4 0) 坚 无 大 系 , 但 时 频 窗 口 的 形状 随 着 
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参数 a 而 发 生变 化 ,这 是 与 短 时 傅 里 叶 变 换 和 Gabor 变换 完全 不 同 的 时 频 分 析 特 性 , 正 是 
这 一 点 决定 了 小 波 变换 在 信号 的 时 频 分 析 中 的 特殊 作用 。 

具体 地 说 ,对 于 较 小 的 < 二 0, 这 时 时 间 域 的 窗口 宽度 aA (y) 随 着 a 一 起 变 小 ,时 间 窗 
[5 一 aA(y) ,2 十 aA(CO] 变 罕 ( 为 方便 ,假定 小 波 的 母 图 数 时 域 中 心 E(Yy) 为 等 ), 中 心 频率 


~ 变 高 ,检测 到 的 主要 是 信号 号 的 高 频 成 分 。 由 于 高 频 成 分 在 时 间 域 的 特点 是 变化 迅速 


因此 为 了 准确 检测 到 在 时 域 中 茶点 处 的 高 频 成 分 ,只 能 利用 该 点 附近 很 小 范 于 内 的 观察 数 
据 ,这 必然 要 求 在 该 点 的 时 间 窗 上 比较 小 ,小 波 变换 正好 具备 了 这 样 的 目 适 应 性 ; 反 过 来 ,对 于 
较 大 的 a 二 0, 这 时 时 间 域 的 窗口 宽度 aA (y) 随 看 a 一 起 变 大 ,时 间 窗 [56 一 aA(y),b 十 aA (y) | 


变 宽 ,中 心 频率 = 变 低 ,检测 到 的 主要 是 信号 的 低频 成 分 。 由 于 低频 成 分 在 时 间 域 的 特 
点 是 变化 缓慢 ,因此 为 了 完整 地 检测 在 时 间 域 中 某 点 的 低频 成 分 ,必须 利用 该 点 附近 较 大 范 
玮 内 的 观测 数据 ,这 必然 要 求 在 该 点 的 时 间 窗 较 大 ,小 波 变换 恰好 具备 这 种 自 适 应 性 ,这 是 
小 波 变换 作为 时 频 分 析 方 法 的 独到 之 处 。 

3.6.2 小 波 分 析 特 点 


下 面 从 小 波 变 换 的 得 Q@ 性 奈 及 时 域 . 频 域 分 辩 率 ,以 及 与 其 他 变换 方法 的 对 比 来 讨论 
小 波 变换 的 特点 ,以 帮助 我 们 对 小 波 变 换 有 更 深入 的 理解 。 


各 J(7) 的 时 间 中 心 是 to ;时 先是 A,, V(w) 的 频率 中 心 是 wo ,带宽 是 A, ， 郝 么 4[ 过 ] 的 时 
间 中 心 仍 是 ,但 时 宽 变 成 vA， ,4 ( t ] 的 频 诺 ,更 (am) 的 频率 中 心 变 为 wo/a, 带 宽 变 成 


A./a。 这 样 二 ] 的 时 宽 一 带宽 积 仍 是 AA。, 与 a 无关 。 这 一 方面 说 明 小 波 变换 的 时 频 关 


系 也 受到 不 确定 原理 的 制约 ,为 一 方面 ,更 主要 地 揭示 了 小 波 变 换 的 一 个 性 质 , 即 钊 Q 性 
质 。 其 中 QQ 为 母 小 流 y() 的 品质 因数 ,定义 如 下 : 


Q 二 A,/wo = 市 锅 / 中 心 频 率 (3-63) 
对 [二] ,其 带 宽 /中 心 频率 为 
2 (3-64) 
opi a 


因此 ,不 论 a 为 何 值 (a>0)， p (二 始终 保持 与 5CD 有 具有 相同 的 品质 因数 . 恒 Q 性 质 是 小 波 


变换 的 一 个 重要 性 质 , 也 是 小 波 变 换 区 别 于 其 他 类 型 的 变换 , 且 被 三 沁 应 用 的 一 个 重要 原 
因 。 图 3-18 说 明了 WW(w) 和 亚 (aw) 的 带宽 及 中 心 频率 随 a 变化 的 情况 。 

可 以 看 到 ,正常 情况 下 小 波 变 换 如 3-18(a) 所 示 。 小 波 变换 在 对 信号 分 析 时 有 如 下 特 
点 : 当 &a 变 大 时 ,对 OE Os 日 分 析 的 中 心 频率 问 
低频 处 移动 ,如 图 3-18(b) 所 示 。 反 之 , 当 & 变 小 时 ,对 x(z) 的 时 域 观察 范围 变 罕 ,但 对 
X(w) 在 频率 观察 engl pi bdo 如 图 3-18(c) 所 示 。 可 以 得 
到 在 不 同 扩 度 下 小 波 变 换 所 分 析 的 时 宽 、 市 宽 、 时 间 中 心 和 频率 中 心 的 关系 ,如 图 3-19 
所 示 。 
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Maw) am) aw) 
和 ou i 
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图 3-19 a 取 不 同 值 时 小 波 变 换 对 信号 分 析 的 时 频 区 间 


由 于 小 波 变 换 的 恒 Q 性 质 , 因 此 在 不 同 尺度 下 ,图 3-19 中 三 个 时 频 分 析 区 间 ( 三 个 矩 
形 ) 的 面积 保持 不 变 。 但 可 以 看 到 ,小 波 变 换 提 供 了 一 个 在 时 频 平面 上 可 调 的 分 析 窗 口 。 该 
分 析 窗 口 在 蜗 频 端 ,如 图 3-19 中 2w 处 的 频率 分 辩 挛 不 好 ,矩形 徐 的 频率 边 变 长 ,但 定形 的 
时 间 边 变 短 ,这 表明 时 域 的 分 辨 率 增加 ; 反之 ,在 低频 闪 oo7/2 处 ,频率 分 辨 率 变 好 ,而 时 域 
分 辨 率 变 差 。 

由 小 波 变 换 的 特点 可 知 , 当 用 较 小 的 a 对 信号 做 高 频 分 析 时 ,实际 上 是 用 高 频 小 波 对 信 
号 做 细致 观察 ; 而 用 较 大 的 a 对 信号 做 低频 分 析 时 ,实际 上 是 用 低频 小 波 对 信号 做 概貌 观 
察 。 如 上 所 述 , 小 波 变 换 的 这 一 特点 和 从 合 对 信号 做 实际 分 析 时 的 规律 。 

小 波 分 析 是 傅 里 时 分 析 方 法 的 发 展 与 延 折 。 它 日 产生 以 来 ,一 直 与 傅 里 时 分 析 密 切 相 
大。 两 者 相 比 较 主要 有 以 下 差别 : 

(1) 侍 里 叶 变 换 用 到 的 基本 加 数 只 有 sin(wt)、cos(wt) 和 exp(jot) ,具有 了 唯一 性 ; 小 波 
分 析 所 用 到 的 函数 则 有 具 有 不 唯一 性 ,同样 一 个 问题 用 不 同 的 小 波 肾 数 进 行 分 析 有 时 结果 相 
差 很 远 。 

(2) 在 频 域 中 , 傅 里 时 变换 具有 较 好 的 局 部 化 能 力 , 特 别 是 对 于 那些 频率 成 分 比较 简单 
的 确定 信和 号 , 傅 里 叶 变 换 可 以 很 容 多 地 把 信号 表示 成 各 种 频率 成 分 登 加 和 的 形式 。 但 在 时 
域 中 , 傅 里 叶 变 换 疫 有 局 部 化 能 力 ,无 法 从 信号 的 傅 里 叶 变 换 中 看 出 厚 信号 在 任 一 时 间 点 附 


近 的 形态 。 
(3) 耕 用 信号 通过 滤波 器 来 解释 ,小 波 变换 与 短 时 傅 里 叶 变 换 的 不 同 之 处 在 于 : 对 短 


时 健 里 叶 变 换 来 说 , 带 通 滤波 器 的 带宽 与 中 心 频率 无 关 ; 相反 ,小 波 变 换 带 通 滤 波 器 的 带宽 
则 正比 于 中 心 频率 , 即 小 波 变换 对 应 的 滤波 器 有 一 个 恒定 的 相对 带宽 。 
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3.6.3 ”小波 变 换 的 多 分 辩 分 析 


可 以 用 照相 机 镜头 相对 被 观察 景物 前 后 推移 的 比喻 关系 来 粗略 地 解释 多 分 辨 分 析 的 概 
念 。 当 尺度 a 较 大 时 ,视野 宽 而 分 析 频 率 低 , 可 以 做 概貌 的 观察 ; 当 尺 度 a 较 小 时 ,视野 罕 
而 分 析 频 率 高 ,可 以 做 细节 观察 ,但 不 同 a 值 的 品质 因数 保持 不 变 。 这 种 由 粗 到 细 对 事物 逐 
级 的 分 析 称 为 多 分 辨 分 析 , 其 特性 是 由 信号 的 日 然 特征 所 决定 的 。 一 个 实际 的 物理 信号 不 
可 能 在 0 一 r 的 范围 内 有 均匀 的 频谱 。 既 然 信 号 的 能 量 在 不 同 的 频 帘 有 不 同 的 分 布 ,在 分 析 
时 上 自然 需要 对 它们 分 别 对 待 。 例如 ,信号 在 传输 过 程 中 需要 量化 编码 ,但 在 有 些 频段 上 信号 
的 能 量 较 大 ,在 另 一 些 频段 上 信号 的 能 量 较 小 。 对 能 量 大 的 频段 所 对 应 的 信号 ,应 给 以 较 多 
的 比特 进行 量化 编码 ,而 对 能 量 少 的 频段 所 对 应 的 信号 ,可 分 配 较 少 的 比特 。 这 样 就 可 以 在 
保证 信号 传输 质量 的 前 提 下 ,减少 所 用 的 比特 数 。 这 实际 上 是 对 信号 进行 分 层 量 化 。 此 外 ， 
对 不 同 频 段 所 对 应 的 信号 还 可 以 采用 不 同 的 加 权 ,或 者 采用 不 同 的 去 品 处 理 等 。 

信号 的 多 分 辩 率 分 析 , 又 称 信号 的 多 分 辨 率 分 解 。 可 以 从 两 个 角度 引入 多 分 辨 分 析 , 即 
函数 空间 的 划分 和 理想 滤波 器 组 。 前 者 是 由 Mallat 首先 提出 的 ,数学 上 比较 严谨 ,结论 也 
比较 全 面 。 但 是 对 于 具体 的 信号 处 理 , 理 想 滤 波 关 组 则 更 容易 接受 ,因此 我 们 从 理想 滤波 天 
组 引入 多 分 辨 分 析 的 概念 。 对 于 函数 空间 划分 方面 ,只 是 人 简要 地 进行 描述 。 

Nd 信号 的 分 解 
方法 可 以 是 等 频 市 划分 ,也 可 以 采用 一 种 二 进 制 分 解 。 当 信和 号 的 采样 频率 满足 采样 定理 时 ， 
归 一 频 市 必须 限制 在 一 r 一 十 r 之 间 。 此 时 可 以 分 别 用 理想 低 通 滤波 器 Ho (xz) 和 理想 高 通 


滤波 器 甩 (=) 将 其 分 解 成 0 一 亚 的 低频 部 分 和 下 一 r 的 高 频 部 分 ,它们 分 别 反 映 信号 的 概貌 


与 细节 。 由 于 两 种 滤波 需 输 出 的 带宽 均 减 半 , 因 此 采样 频率 减 半 也 不 至 于 引起 信息 的 丢失 。 
图 3-20 给 出 了 具体 分 解 的 过 程 。 


ai(n) Hi(2) 2 ds(n) 
Ca 
H(z) aa(n) 


图 3-20 ”信和 号 二 进 制 分 解 的 实现 


如 果 zzz) 的 市 宽 在 0 一 x 之 间 ,采样 频率 为 f,, 那 么 经 过 高 通 和 低 通 滤波 兹 后 ,ai (ln) 的 
种 冤 在 0 一 了 之 间 ,cz (n) 的 带宽 在 二 一 x 之 间 , 它 们 均 比 原 信 号 x (7) 的 市 冤 (0 一 0) 减 小 了 


- 半 。 由 此 ,对 ai(n) 和 qi(n) 的 采样 频率 没有 必要 再 用 f,, 仅 用 f,/2 就 可 以 满足 采 梓 定 
理 。 在 上 述 分 解 过 程 中 ,每 一 级 分 解 后 信号 的 频 市 都 比 前 一 级 减 小 一 半 , 因 此 在 图 3-20 中 
每 一 级 都 跟随 着 一 个 二 抽取 环节 , 它 表示 对 每 两 点 数据 保存 一 点 ,因此 采样 频率 降低 了 一 半 。 
由 于 有 Hi (x) 是 高 通 滤 波 带 ,所 以 其 输出 dj(n) 是 每 一 级 的 高 频 信 号, 称 为 该 级 信号 的 “ 细 市 ” 
(detail) ,而 aj;(n) 是 每 一 级 的 低频 信号 , 称 为 信号 的 “概貌 ”或 “近似 ”(approximation)。 

从 信号 的 分 解 过 程 可 以 看 出 ,一 次 次 的 分 解 将 原 信号 x(n) 分 成 了 一 个 个 具有 不 同 频 市 
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的 “ 子 市 ”(subband) 信 号 。 夺 对 这 些 子 市 信号 各 日 做 DFT, 且 DFT 的 长 度 和 都 一 样 ,那么 每 
-个 子 市 信号 的 频率 分 辨 率 是 不 一 样 的 。 对 信号 x(n) 的 频率 分 辨 率 是 f,/N ,对 al (n)、 

di1(n) 的 频率 分 辩 率 是 f,/2N ,提高 了 一 信 ; 对 as (nn) ds (nn) 是 ff./4N ,对 a3(n)、ds(n) 的 频 
率 分 辩 率 是 f,/8N, 这 一 分 析 过 程 是 一 个 由 “ 粗 ” 到 “ 精 ” 的 过 程 。 因 此 ,把 这 一 类 将 原 信 和 号 按 
频 市 分 解 成 一 个 个 子 市 信号 的 方法 称 作 ”* 多 分 辨 率 分 析 ( 或 分 解 )”。 

由 此 可 以 引出 以 下 概念 。 

1. 频率 空间 的 划分 

如 果 把 原始 信号 Xx(70) 占 据 的 总 频 市 0 一 x 定义 为 空间 Vu, 则 经 过 第 一 级 分 解 后 Vo 被 


划分 成 两 个 子 空间 低频 的 Vi | 频带 0 一 于 ] 和 高 频 的 W, | 频带 好 和 ~x]. 经 过 第 二 级 分 解 


后 V 又 被 划分 成 低频 Vs| 频带 0 一 于 和 高 频 的 W| 频带 也 ~ 子 ,这 种 子 空间 分 解 过 程 可 


以 记 作 
V = VOBWiW =V: BW ,Vi = VW, 
空间 具有 逐 级 包含 和 逐 级 蔡 换 的 特性 。 
warmommrruawmr 


即 W' 空间 的 中 心 频率 为 地 ,带宽 为 一 了 一 也 ;Ws 空间 的 中 心 频率 为 挟 x, 较 Wi 减 


一 一 ， 
和 


半 ,带宽 为 一 十 一 二 ,也 较 Wi 减 半 。 可 见 各 W,; 的 品质 因数 是 相同 的 。 


3. 各 级 滤波 器 的 一 致 性 
各 级 低 通 滤波 从 和 高 通 滤波 天 是 一 样 的 。 这 是 因为 前 一 级 输出 被 二 抽取 ,而 滤波 融 设 
计 和 是 根据 归 一 频率 进行 的 ,所 谓 归 一 频率 是 指 呐 实 频率 与 及 梓 间 隅 的 乘积 。 例 如 第 一 级 低 


通 滤波 硕 的 真实 频 市 带 是 0 是 输入 的 采样 间隔 ) ,其 归 -频率 则 是 0 一 了 。 第 二 级 低 


通 滤波 器 的 真实 频带 虽然 是 0~7 二 ' 但 归 -频率 仍 是 0 一 了 ,因为 第 二 级 输入 的 采样 间隔 是 
i 

从 晴 数 空间 划分 的 角度 看 ,在 二 分 的 情况 下 Mallat 从 函数 的 多 分 辨 率 空间 分 解 概 念 出 
发 ,在 小 波 变换 与 多 分 辨 分 析 之 间 建 立 起 联系 。 如 果 把 平方 可 积 的 函数 z(t) EL*(R) 看 成 
是 某 一 逐 级 通 近 的 极限 情况 , 则 每 级 逼近 都 是 用 革 ts X(t) 做 平滑 的 结果 ,只 是 
逐 级 通 近 时 平 清国 数 也 做 逐 级 伸缩 , 即 用 不 同 的 分 辩 率 来 逐 级 通 近 待 分析 的 困 数 x(t)。 对 
于 Vj 与 W; 空间 ,可 以 找到 相应 空间 的 标准 正 交 基 , 并 可 以 re $(7) 与 小 波 
函数 jy(1)。 其 中 尺度 函数 和 低 通 滤波 器 相对 应 ,而 小 波 函 数 和 高 通 滤波 器 相对 应 。 


3.6.4 小 波 变 损 和 在 语音 处 理 中 的 应 用 


如 前 所 述 ,小 波 变换 具有 很 多 傅 里 叶 变换 无 法 比拟 的 性 质 , 使 得 小 波 变换 在 非 平稳 信和 号 
的 分 析 和 处 理 中 发 挥 着 重要 的 作用 。 由 于 语 首 信 号 是 一 种 比较 典型 的 非 平 稳 信 号 ,因此 很 
多 学 者 将 小 波 变 换 引 入 到 语 首 信号 处理 中 ,并 开展 了 相关 的 人 研究 工作 ,主要 包括 ; 利用 小 波 
变换 对 听觉 感知 系统 进行 模拟 ,对 语音 信号 去 品 ,进行 清 、 浊 音 判 断 。 
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1. 利用 小 波 变换 对 听觉 系统 的 模拟 

听觉 系统 对 声音 信号 的 感知 是 一 系列 复杂 的 转换 过 程 , 这 些 转换 大 致 分 为 三 个 阶段 : 
耳蜗 滤波 融 ,也 就 是 基 展 膜 完 成 对 信号 的 分 析 ; 毛细 胞 完成 机 械 振动 到 点 激励 的 转换 ; 侧 
抑制 网 络 完 成 声学 谱 特 征 的 缩减 。 对 声音 信号 的 分 析 主 要 是 在 基底 膜 上 完成 的 。 基 底 膜 上 
的 振动 是 以 行 流 方式 传递 的 。 频 率 不 同 , 行 波 传播 的 距离 也 不 同 , 从 而 不 同 频 率 行 波 的 极 大 
值 出 现在 基底 腊 的 不 同位 置 上 。 频 率 高 的 极 大 值 在 基 乓 膜 的 前 端 ,频率 低 的 极 大 值 在 其 末 
端 , 这 使 得 基底 膜 具有 频率 分 解 的 能 力 。 此 外 ,对 相同 的 频 差 ,振动 频率 低 时 其 极 大 值 相距 
较 远 ,而 振动 频率 高 时 其 极 大 值 相 距 较 近 。 因 此 , 基 克 膜 对 低频 的 分 辨 力 要 高 于 高 频 的 分 
状 力 。 

由 于 人 和 耳 的 频率 分 辩 率 是 非 线 性 的 ,用 传统 的 线性 信号 处 理 方 法 ,如 侍 里 叶 变 换 来 模拟 
人 和 耳 基 底 膜 的 频率 分 析 特 性 是 比较 困难 的 。 可 以 利用 小 波 变换 对 频带 进行 划分 ,使 得 其 接 
近 于 临界 频 市 。 使 用 单纯 的 小 小 变换 对 信号 进行 处 理 ,频谱 幅 值 /dB 
时 ,是 将 整个 频带 二 分 ,然后 保留 高 频 部 分 ,对 低频 部 
分 继续 二 分 ,如 此 重复 下 去 。 这 样 当 频带 为 4kHz 时 ， 
得 到 各 个 子 市 市 蜗 依 次 为 2kHz、lkHz、500Hz 和 
125Hz, 如 图 3-21 所 示 , 这 与 临界 频 市 的 划分 相去 

为 此 可 以 采用 广义 的 小 洲 变 换 , 即 把 小 波 变 换 与 
小 波 包 变换 结合 使 用 ,以 不 完全 的 小 波 包 变 换 来 对 输 
入 信和 号 进行 处 理 。 小 波 包 算法 有 灵活 的 时 频 分 析 能 图 3-21 小波 变 换 对 频 市 的 划分 
力 , 可 以 更 好 地 符合 人 耳 基 底 膜 的 频率 分 析 特 性 。 这 
时 对 频 市 的 划分 如 图 3-22 所 示 。 进 行 小 波 包 变换 时 阶 数 最 大 为 5, 当 频 市 宽 为 4kHz 时 , 子 
之 最 小 宽度 为 125Hz, 接 近 最 小 的 临界 频带 带宽 。 


Olk 2k 4k f IHz 


0,0.123 
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图 3-22 不 完全 小 波 包 变换 对 频 市 的 划分 
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2. 用 于 随机 噪声 的 去 除 
传统 的 基于 滤波 的 噬 声 去 除 方法 是 将 被 噪声 污染 的 信号 通过 一 个 滤波 带 , 滤 抒 了 噪声 频 
率 成 分 。 但 是 对 于 短 时 有 瞬 态 信号 . 非 平 稳 过 程 信 号 、 含 蜗 市 噬 声 信号 ,有 米 用 传统 方法 进行 处 
理 有 看 明显 的 局 限 性 。 和 非常 
灵活 的 对 奇异 特征 提取 的 功能 ,可 在 低 信 哄 比 的 情况 下 有 将 地 去 了 噪 , 并 检测 信号 的 波形 
特征 。 
利用 小 小 变换 去 品 的 基本 思想 是 : 根据 噪声 与 信号 在 各 扩 度 ( 即 各 频 市 ) 上 的 小 波谱 具 
有 不 同 表现 的 特点 ,将 噪声 小 波谱 占 主导 地 位 的 那些 尺度 上 的 曲 声 小 波谱 普 分 量 去 拯 ,这 样 保 
留 下 来 的 小 波谱 基本 上 就 是 原 信 号 的 小 波谱 ,然后 再 利用 小 小 变换 重 构 算 法 , 重 构 出 原 信 
号 。 小 小 变 换 去 噪 的 关键 是 如 何 滤 除 由 噪声 产生 的 小 波 诺 
日 噪声 依 号 在 小 波 变 换 下 具有 与 场 音信 号 不 同 的 特点 ,这 可 以 由 以 下 的 两 个 定理 来 
体现 。 
定理 3.1 假设 一 个 信号 n(t) 是 一 个 方差 为 o 的 宽 平 稳 白 骂 声 ,J(1) 是 一 个 小 波 遂 数 ， 
则 和 白 品 声 n(t) 的 小 波 变换 的 期 望 值 为 
E{| Wncz) | } = Sy (3-65) 
Bp Et 2 } 的 衰减 正比 于 1/s, 随 着 小 波 变换 尺度 的 增加 ,和 白 只 声 的 小 波 变 挽 幅 值 平均 
减少 ; 即 嗓 声 的 能 量 随 尺度 的 增 大 而 迅速 减少 ， 
和 3.2 车 和 白 噪声 n(t) 是 融 斯 白喉 声 , 在 尺度 5s, 其 小 波 变 换 模 的 平均 锋 度 为 
-4 (19 上 | Y 站 a 
sr\ yl yl 
该 定理 说 明日 曝 声 的 小 波 变 换 模 值 的 平均 密度 正比 于 1/s, 随 大 尺度 s 增 大 ,其 密度 减 
小 。 画 外 ,还 可 以 证 明 高 斯 月 噪声 几乎 处 处 奇异 。 
由 上 述 两 个 定理 可 知 , 随 厦 斥 度 的 增加 ,日 噪声 的 小 波谱 将 逐渐 消失 ,而 有 效 信号 的 小 
波 变 换 在 大 尺度 上 仍 有 清楚 的 表现 。 因 此 ,通过 观察 信号 与 呢 声 小 波谱 模 值 随 尺度 增 加 或 
减少 的 演变 情况 ,可 以 区 分 日 噪声 及 信和 号 各 上 月 产生 的 变换 模 值 。 如 果 * 减少 ,小 波 变 换 模 幅 
值 急 剧 增加 , 则 说 明 这 些 模 值 主要 由 日 噪声 产生 ,应 该 去 择 。 另 外 ,噪声 在 不 同 矿 度 下 的 小 
小 变换 是 高 度 不 相关 的 ; 信号 的 小 小 变换 一 般 具 有 很 强 的 相关 性 , 相 邻 广度 上 的 局 部 模 极 
大 值 几 乎 出 现在 相同 的 位 置 上 ,并 且 有 相同 的 符号 。 可 以 利用 这 点 判断 小 太 度 上 哪些 成 分 
属于 有 用 信号 ;应 予以 保留 ; 哪些 成 分 属于 史 声 ,应 子 以 滤 除 。 AAA 
特性 ,能够 改变 信号 在 某 些 点 或 某 些 段 的 值 ,而 不 影响 到 其 他 部 分 。 这 是 小 波 消 除 噪声 比 传 
里 叶 变 换 去 除 品 声 更 灵活 有 效 的 原因 之 一 。 
在 去 了 吹 时 通 名 采 用 二 进 小 波 ,通过 分 析 小 波 变 换 的 模 极 大 值 进行 去 品 ,具体 步 桑 如 下 : 
(1) ea 提取 所 有 模 的 极 大 值 ,一 般 最 大 尺度 J 会 小 于 4; 


(2) 求 取 国 值 T,= 二 C 一 于 ,其 中 M 为 最 大 八 度 s 二 2 上 的 最 大 幅 值 ,C 为 一 个 常数 ; 


(3) 在 最 后 一 个 尺度 人 上 ,将 小 波 变换 后 幅 值 小 于 阔 值 T。 处 的 点 全 部 去 掉 , 因 为 在 这 
些 点 上 噪声 的 小 波 变换 分 量 仍 有 影响 ，; 


(4) 将 小 波 变 换 后 的 大 于 国 值 的 部 分 求 出 相应 的 a, 其 中 a=1og 


W 2i+1 f(x) 


WfCz) |” 起 取 
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1 一 3 或 4, 石 某 点 上 处 的 we 小 于 0, 则 令 a 为 0; 

(5) 将 1, …,jJ 一 1 尺度 的 小 波 变换 全 部 去 掉 , 由 最 后 一 个 斥 度 的 小 波 变换 ,按照 
Wy f(x) 一 Wyt! Frz)X2 “重新 构造 出 7 二 J 一 1,…,1 尺度 上 的 小 波 变 换 ， 

(6) 由 重建 的 小 波 变 换 经 小 波 反 变换 恢复 去 噪 后 的 信号 。 

3. 用 于 清音 和 浊音 判断 

语音 信号 小 波 系 数 的 低频 部 分 描述 了 信号 的 轮廓 ,相当 于 信号 经 过 低 通 滤波 器 的 结果 ; 
高 频 部 分 摘 述 了 信号 的 细节 ,相当 于 信号 经 过 高 通 滤波 天 的 结果 。 根 据 声 音信 号 短 时 平稳 
的 特点 ,首先 对 请 音 信号 分 帧 进行 小 波 变 换 , 将 小 流域 的 系数 平均 分 为 4 个 频 市 ,计算 每 个 
频带 的 平均 能 量 。 如 果 满 足以 下 条 件 : 岂 在 小 波 域 中 的 最 高 频 市 的 能 量 比 其 他 频带 的 能 量 
大 ; 加 最 低频 带 的 能 量 和 最 高 频带 的 能 量 比 小 于 0.9, 则 认为 这 段 语 音信 和 号 为 清音 。 

男 外 ,小 波 变换 还 可 以 用 于 动态 频谱 分 析 。 例 如 ,将 其 用 于 语音 信号 分 析 , 看 它 是 否 能 
比 传 统 的 诸 谱 图 揭示 出 更 多 的 信息 ,特别 是 关于 快 变 语 音 段 的 特征 ; 或 利用 小 波 变 换 作 为 
携带 信号 信息 的 载体 ,在 语音 识别 中 用 作 特 征 提取 的 手段 ,而 不 关心 它 是 否 能 表示 功率 谱 
密度 。 


3.7 语音 信号 的 同 态 解 卷 积 


按照 场 音信 号 产生 的 线性 模型 理论 ,声音 信号 是 由 激励 信号 与 声 道 啊 应 卷 积 产生 的 。 
在 语音 信号 处 理 所 涉 及 的 各 个 领域 中 ,根据 语音 信号 求 得 声 门 激 励 信 号 和 声 道 冲 激 啊 应 有 
着 非常 重要 的 意义 。 例 如 ,为 了 求 得 语音 信号 的 共振 峰 , 必 须知 道 声 道 的 传递 函数 。 又 如 ， 
为 了 判断 语音 信和 号 是 清音 还 是 浊音 ,以 及 求 得 浊音 情况 下 的 基 音 频率 ,必须 知道 声 门 激励 序 
列 。 要 想 提取 反映 声 道 特性 的 谱 包 络 ,就 必须 通过 解 卷 积 去 掉 激 励 信息 。 
卷 ”, 即 线性 预测 分 析 ; 另 一 类 算法 称 为 " 非 参数 解 卷 ", 即 同 态 解 卷 积 , 对 语音 信号 进行 同 态 
分 析 后 ,将 得 到 语音 信号 的 倒 谱 参数 ,因此 同 态 分 析 也 称 为 倒 谱 分 析 或 同 态 处 理 。 同 态 处 理 
是 一 种 较 好 的 解 卷 积 的 方法 , 它 可 以 较 好 地 将 语音 信号 中 的 激励 信号 和 声 道 啊 应 分 离 ,并且 
只 需要 用 十 几 个 倒 谱 系数 就 能 相当 好 地 描述 语音 信号 的 声 道 啊 应 ,因而 在 语音 信号 处 理 中 
占有 很 重要 的 位 置 。 本 节 主 要 介绍 同 态 处 理 的 基本 原理 ,以 及 声 道 响 应 和 激励 源 的 倒 谱 特 
性 和 一 些 常用 的 语音 特征 表示 等 。 


3.7.1 同 态 信号 处 理 的 基本 原理 


通 第 的 加 性 信号 可 以 用 线性 系统 来 处 理 ,这 种 系统 是 满足 线性 合 加 原理 的 。 然 而 许多 
客观 物理 现象 中 的 信号 ,其 中 各 组 成 分 量 的 组 合 ,并 不 是 按 加 法 组 合 原 则 组 合 起 来 的 。 例 
如 ,图 像 信和 号、 地震 信 号 、 通 信 中 的 医 落 信和 号、 调制 信号 以 及 我 们 所 人 研究 的 语 首 信号 等 ,如 不 
是 加 性 信号 ; 而 是 乘积 性 组 合 信号 或 卷 积 性 组 合 信号 。 显 然 ,这样 的 信号 不 能 用 线性 系统 
来 处 理 ,而 必须 用 满足 该 组 合 规则 的 非 线 性 系统 来 处 理 才 行 。 但 是 非 线 性 系统 分 析 起 来 非 
弟 困难。 同 态 信 号 人 处理 法 就 是 设法 将 非 线 性 问题 转化 为 线性 问题 来 处 理 的 一 种 方法 。 按 被 
处 理 信号 来 分 类 ,大 体 上 可 以 分 为 : 乘积 同 仿 信号 处 理 和 郑 积 同 仿 信号 处 理 两 种 。 由 于 博 
音信 号 可 以 看 作 是 声 门 激励 信号 与 声 站 啊 应 的 卷 积 绪 朱 ,所 以 下 面 仅 讨论 卷 积 同 仿 信 和 号 处 
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理 问题 。 

同 态 信号 处 理 的 一 个 通用 系统 构成 如 图 3-23 所 示 。 其 中 ,符号 * 表示 由 卷 积 组 合 规则 
组 合 起 来 的 空间 , 即 该 系统 的 输入 和 输出 信号 都 是 卷 积 性 信号 。 同 态 系 统 的 一 个 最 主要 理 
论 结果 是 同 态 系 统 分 解 ,分 解 的 目的 是 用 两 个 特征 系统 和 一 个 线性 系统 来 代替 非 线 性 的 同 
态 系 统 。 分 解 的 情形 如 图 3-23(b) 所 示 。 针 对 语音 信号 的 具体 情况 ,其 特征 系统 和 道 特征 
系统 及 其 运算 情况 如 图 3-23(c)、(d) 所 示 。 


Xx(n)=e(n) ”vu(n) ym)=H[e(n) vu(n)) 


(a) 郑 积 同 访 系统 示意 图 


| 

| t(n) Hn) | y(n) 
rn oF oH 

| 


(d) 逆 特 征 系统 D*! 的 构成 示意 图 
图 3-23 ” 卷 积 同 态 系统 及 其 分 解 和 特征 系统 的 构成 


假设 输入 信号 是 两 个 信号 的 卷 积 ,这 两 个 信号 eCn) 和 vn) 分 别 对 应 声 门 激励 信号 和 声 
道 响应 序列 。 特 征 系统 D" 的 运算 是 将 卷 积 信号 转化 为 加 性 信号 。 它 包括 三 步 。 第 一 步 是 
对 信号 进行 Z 变 换 ,将 卷 积 信号 转变 为 乘积 信号 ,这 时 得 到 的 就 是 输入 信号 的 频谱 ; 


一 tl Etzy Vs) (3-67) 
第 二 步 是 进行 对 数 运算 ,将 乘积 信号 变 为 加 性 信和 号: 
logX(z) = logE(z) + logV(z) = E(xz) FV 一 a (3-68) 


由 于 这 个 信号 是 加 性 的 对 数 频 谱 , 使 用 起 来 有 些 不 方便 ,因此 和 常常 将 它 青 变 回 时 域 信 和 号。 所 
以 第 三 步 进 行 Z 反 变 换 运 算 , 得 到 的 就 是 输入 语 首 信号 的 倒 谱 (cepstrum): 
A Bd (3-69) 
由 于 加 性 信号 的 Z 变换 或 Z 反 变 换 的 结果 仍然 是 加 性 信号 ,所 以 倒 谱 这 种 时 域 信号 是 
可 以 用 线性 系统 加 以 处 理 的 。 
(。) 是 在 倒 谱 域 对 信号 进行 处 理 ,和 常见 的 处 理 方式 是 将 博 首 声 源 信号 和 声 道 信号 
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由 于 在 倒 谱 域 ,总 可 以 找到 一 个 N, 当 nn 三 N 时 , 声 道 滤波 
种 的 倒 详 为 雪 。 而 在 2 二 N 时 ,激励 的 倒 谐 接近 于 雪 。 这 梓 在 
图 3-24 中 ,可 以 通过 717) 形式 分 别 把 激励 和 声 道 的 倒 谱 信息 进 
行 分 离 。 


图 3-24 解 郑 积 的 倒 谱 域 沼 
x 3-24, 为 得 到 声 道 的 倒 谱 信息 ,其 对 应 的 1(n) 如 
于 图 为 得 到 声 道 的 倒 详 信 . 应 的 1(n) 如 下 : 册 的 半 二 


] ， | n | 三 N 
[Cn) -| (3-70) 
+ | 
同 理 , 为 得 到 激励 的 倒 谱 信息 ,其 对 应 的 Ln) 的 表示 如 下 : 
ys | 证 | 过 EN 
1(n) = | (3-71) 
| oe 


经 过 L(。) 处 理 之 后 ,如 果 想 青 恢复 为 语 首 信号 y(n) ,可 以 用 图 3-23(d) 所 示 的 逆 特 征 系 统 
运算 。 显 然 , 它 是 特征 系统 的 反 运 算 ,即将 线性 系统 输出 的 加 性 倒 谱 信号 进行 Z 变换 ,得 到 
线性 的 对 数 频 详 ,然后 青 进行 指数 运算 转换 为 输出 频谱 ,这 种 频谱 是 一 种 乘积 性 信号 。 最 后 
通过 Z 反 变 换 , 就 得 到 卷 积 性 的 请 首 恢 复 信号 。 


3.7.2 语音 信和 写 的 复 倒 谱 
在 倒 谱 域 上 ,可 以 将 信号 分 为 实 倒 谱 信号 和 复 倒 谱 信 号 。 对 于 输入 信号 z(n) ,如 果 其 
对 应 的 倒 谱 信号 求解 如 式 (3-72) 表 示 , 则 其 对 应 定义 为 实 倒 谱 信 号 。 
ei) Oo | log | X(w) | e™ do (3-72) 


如 果 在 其 倒 谱 域 的 求解 过 程 中 ,不 仅 考 虑 信号 对 应 的 频谱 的 模 , 也 考虑 其 相位 , 则 称 其 
为 复 倒 谱 域 。 这 时 对 应 的 公式 可 以 表示 如 下 : 


Rd = a logX (we dw (3-73) 
如 果 采 用 复 倒 谱 的 表示 , 则 需要 对 复数 的 频谱 信号 取 对 数 , 这 时 的 对 数 表示 为 
X(w) — logX(ee) 一 log | XC(w) | iO(Cw) (3-74) 
其 中 相位 为 
bl(w) = argLXCo) | (3-75) 


1. 声 门 激励 信号 
除了 人 们 发 清音 时 , 声 门 激励 是 能 量 较 小 .频谱 均匀 分 布 的 日 噪声 外 ; 在 发 浊音 时 , 声 
门 激励 是 以 基 音 周期 为 周期 的 冲 激 序 列 ， 


M 
et(n) = A (tu — FN,) (3-76) 
式 中 ,M 是 正 整 数 ; a, 是 振幅 因子 ; N, 为 基 首 周期 。 这 样 的 冲 激 序列 的 Z 变换 为 
十 ea M M 
一 > Das rN le = > az (3-77) 


由 式 (3-77) 可 见 ,E(z) 是 变量 = 的 多 项 式 , 而 不 是 z !' 的 多 项 式 。 于 是 ,E(z) 可 以 表示 成 
形式 为 (1 一 az “sz ) 因 式 的 乘积 , 即 
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MM 
E(z) = a JU — a, (zN» )-1] (3-78) 
通常 由 于 a, 二 a,/ao 小 于 1, 所 以 将 上 述 公 jmp 并 用 泰勒 公 陈 展开 为 
E(z) = logE(z) = logao 一 ya A 训 交 | (3-79) 
Fr 一 ] 有 一 ] 


因此 ,对 上 式 求 Z 的 反 变 换 , 就 可 以 得 到 倒 谱 : 


El(n) = logaod(n) 十 > pa 一 AN， ) (3-80) 

式 中 本 
B ny -一 去 袜 (二 ) 1 二 k++ (3-81) 
由 声 门 激励 的 倒 谱 可 以 得 到 如 下 结论 : 一 个 周期 冲 激 的 有 限 长 度 序列 ,其 倒 谱 也 是 一 个 


周期 冲 激 序列 ,而 且 周 期 长 度 N, 不 变 , 只 是 长 度 变 成 无 限 长 度 ; 名 周期 冲 激 序列 倒 并 的 振 
幅 随 看 -~ 值 的 增 大 而 喜 减 ,并 且 豆 减 的 速度 比 原 订 列 要 快 。 
这 些 特 点 对 博 音 信号 的 分 析 很 有 用 。 这 和 意味 看 除了 原点 外 ,可 以 采用 “局 时 窗 " 来 从 十 
首 信 号 的 倒 详 中 提取 浊 首 信号 的 倒 详 ,从 而 使 得 用 倒 详 法 提取 基 音 周期 成 为 现实 。 

声 门 激励 源 在 浊音 时 ,其 倒 详 只 在 2 一 AN 请 扣 上 不 等 于 和 零 , 在 其 他 点 上 均 为 零 。 即 声 
门 激励 在 浊音 时 , 倒 谱 序 列 第 一 个 非 零点 与 原点 的 距离 正好 为 基 音 周期 N,。 在 清音 的 情况 
下 , 声 门 激 励 源 具有 了 噪声 特性 ,因而 这 时 的 倒 谐 没有 明显 的 峰 点 ,分 布 范 围 很 宽 , 从 低 时 域 延 
伸 到 高 时 域 。 利 用 这 个 特点 可 以 进行 清音 和 省 音 的 判断 。 


声 道 冲 激 啊 应 的 倒 谱 
如 果 用 最 严格 的 极 零 模 型 来 描述 声 道 啊 应 , 则 该 啊 应 序列 v(n) 的 Z 变换 有 如 下 的 


形式 : 
TT a a TT 6) 


Wh 二 一 一 和 一 一 一 一 [的 
I[ -os DTTa 一 ae， 
5 A 是 一 实数 , 它 是 归 一 化 V(z) 后 得 到 的 .个 系数 ， 而 |ar|、|654|、|cil、1di| 的 值 都 小 
。 上 式 表明 ,V(z) 具 有 mi 个 零点 在 Z 平 面 单位 圆 内 ,有 mo 个 零点 在 Z 平 面 单位 圆 外 ; 
Py Pi 个 极点 在 Z 平 面 单位 圆 内 ,有 po 个 极点 在 之 平面 单位 圆 外 。 
将 式 (3-82) 求 对 数 即 可 得 到 


和 logV(z) = log | A | 二 S \log(] 一 az 1!) 十 > ,log(1 — b,z) 
k=1 k=1 


加 p, 
pb log(1] — cz  )— > log(l1 — diz) (3-83) 


除了 log|A| 外 ,上 式 所 有 项 都 包含 lt log(1 一 Bz ) 的 形式 ,这 些 因 式 所 表示 的 
Z 变换 的 收敛 域 都 包括 单位 圆 。 由 于 |ar|l、i64l、licc|、idi| 都 小 于 1, 所 以 可 以 用 泰勒 展开 
将 上 式 的 后 4 项 按 下 面 模式 展开 : 


]og(] —az ') 一 一 | 业 | 全 |a| (3-84) 
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log(1 — Bz) Es | 过 | 在 | (3-85) 
n=1 名 


将 上 述 类 型 的 展开 式 代 入 式 (3-83), 有 


~ We Eas 天 ls nn 
V(z) =log | A |— » bp ER 5 ps OE， 
k=1 m=1 Rl = 
丰 十 co po 十 co 
DD (3-86) 
k=1 n=1 k=1 n=1 


PRO 3 PE 了 逐 项 求 上 式 
的 Z 逆 变 换 , 可 以 求 得 倒 谱 : 


v(n) =log | A | 6(n) 一 DB Ww (C1 站 35 eu (— n— 1) 
k=1 
Pl 
上 和 - i i 
k=1 天 
或 写成 
flog | A |， 1 一 0 
pl Fn 
> 和 芋 — eh, z 
| £=1 7 k=1 天 (3-88) 
nt ei po 
b A 7 < 0 
gl R= 


应 该 指出 ,对 于 有 限 长 度 序 列 , 式 (3-88) 中 在 宛 不 等 于 零 时 的 取 值 将 消失 。 
从 上 述 分 析 中 可 以 看 出 , 声 道 啊 应 序列 的 倒 谱 特性 如 下 : 中 倒 谱 v(n) 是 一 个 双边 序列 ， 
即 在 一 oo 二 n 二 co 的 范围 内 ,v(n) 缘 有 值 ; @ 由 于 |as|、165i|、|ci|、|di | 都 小 于 1, 所 以 倒 谱 


(nn) 是 一 个 衰减 序列 , 即 随 着 |n| 的 增 大 ,13(n) | 减 小 ,并 且 衰 减速 度 至 少 比 二 快 ; @ 如 果 信 


号 本身 v(n) 是 最 小 相位 序列 , 即 极点 和 和 零点 狂 在 Z 平面 单位 圆 内 部 , 即 5 二 0 同时 di 二 0， 
则 w(x) 只 在 nn 三 0 泡 围 有 值 , 即 为 因果 厅 列 ,或 者 说 ,最 小 相位 信号 厅 列 的 倒 谱 是 一 个 因果 订 
列 ; 由 如 果 v(m) 是 最 大 相位 序列 , 即 极点 和 零点 缘 在 Z 平面 单位 圆 外 部 , 即 a 一 0 同时 
ct 一 0, 则 zz) 只 在 2 一 0 范围 有 值 , 即 为 反 因 果 序 列 。 或 者 说 ,最 大 相位 信号 序列 的 倒 谱 是 
-个 反 因 果 序 列 。 

实际 上 , 声 道 的 特性 取决 于 式 (3-82) 的 零 极 点 分 布 。 a 可 知 , 当 
V(z) 的 零 极 点 的 模 值 不 接近 于 1 时 ,v(n) 将 随 着 n 的 增 大 而 迅速 递减 。 当 采样 频率 为 
10kHz 时 ,Zn) 在 间隔 [一 25,25] 之 外 的 值 已 经 相当 小 ， 可 认为 声 道 省 响应 的 倒 谱 只 分 布 在 这 
-范围 内 。 


3.7.3 ”避免 相位 卷 绕 的 算法 

在 倒 谱 分 析 的 过 程 中 ,由 于 Z 变换 后 得 到 的 是 复数 ,所 以 取 对 数 时 进行 的 是 复 对 数 的 
运算 。 这 时 将 存在 相位 的 多 值 性 问题 ,形象 些 说 就 是 将 存在 “相位 卷 绕 "问题 。 由 于 相位 关 
绕 , 使 得 求 倒 谱 及 由 倒 谱 恢 复 语音 的 运算 存在 不 确定 性 ,因而 会 产生 错误 。 下 面 以 Z 变换 
是 最 简单 的 传 里 叶 变 换 运算 为 例 ,分 析 相位 卷 绕 是 如 何 产生 的 ， 


82 本 | 语音 信号 处 理 (第 3 版 ) 


设 信号 
tn) — (nn) vn) (3-89) 
其 全 里 叶 变 换 为 
X(w) = E(w) XV(w) C9- 00) 
复 对 数 如 下 : 
logX(w) = logE(w) + logV (w) C3-91) 
因而 有 振幅 和 相位 如 下 : 
log | X(o) |= log | E(w) | 十 log | VCo) | CW) 
LX(0) | = LE | xzTV()] (3-93) 
其 中 ,二 表示 求 相 角 。 式 (3-93) 也 可 以 表示 为 1 
Pw) = pi(w) + pa (w) (3-94) _ 
式 (3-94) 表 明了 相位 的 多 值 性 ,尽管 加 (w) 和 总 27 
#2(w) 单 个 值 是 在 0~2x 内 。 这 里 由 于 $(w) 采 用 了 , 


求 和 ,因此 其 值 可 能 超过 2x。 但 是 ,在 用 计算 机 计 
算 时 , 它 得 到 的 总 相位 值 人 LX(w) ] 只 能 用 其 小 于 2x 
的 主 值 B(w) 来 表示 。 所 以 有 可 能 出 现 

$lw) = Blw) 十 2 (3=95) 
其 中 ,k 为 整数 。 由 于 k 值 无 法 事先 确 知 ,因而 真 值 
p(w) 也 就 无 法 得 出 。 图 3-25 表示 相位 卷 绕 的 一 个 ~ 


Pw) 


例子 。 
4 暗 信 相位 差生 的 产 > 
DA i 
1. 微分 法 
这 种 方法 利用 了 傅 里 叶 变 换 的 微分 特性 和 对 数 微分 特性 。 傅 里 叶 变 换 的 微分 特性 为 
] OX (w) 一 ye mrt) ™ (3-96) 


该 式 表 明 , 夺 x(n) 的 傅 里 叶 变 换 为 X(w), 则 友 列 nzx(n) 的 傅 里 叶 变 换 为 ] dX(w)/dw。 而 复 
倒 谱 tCn) 和 对 数 谱 X(w) 之 间 也 满足 关系 


a 


。 d a YY hn Si 
] J < Cw) 一 之 nt)e (3-97) 
利用 对 数 微分 特性 , 式 (3-97) 可 以 改写 为 
a 人 LX(w)] ee 
gr FE = : 上 。 二 Ce) Eee 一 jam 
] XX (w) ] jlogX (w) | 一 j ” Pee (nn)e (3-98) 


因此 ,由 式 (3-96) 和 式 (3-98) 可 以 画 出 避免 相位 着 绕 求 复 倒 谱 的 框图 ,如 图 3-26 所 示 。 

虽然 这 种 方法 避免 了 求 复 对 数 的 问题 ,但 缺点 是 会 产生 严重 的 混合 。 其 原因 是 
nz(n) 的 频 请 中 的 高 频 分 量 比 x(n) 有 所 增加 ,所 以 仍 使 用 xz(nw) 原 来 的 采样 率 将 引起 混 释 ; 
混合 后 求 出 的 x(n) 将 不 是 x(n) 的 复 倒 谱 。 因 而 这 不 是 一 个 理想 的 方法 。 

2. 最 小 相位 信号 法 

这 是 一 种 较 好 的 解决 相位 卷 绕 的 方法 , 它 既 避 开 了 求 复 对 数 过 程 ,又 不 会 产生 混 倒 问 
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. d 
: Da [InX(ew)] 


nc(n) i 


图 3-26 ”利用 微分 特性 求 复 倒 谱 的 框图 


题 。 但 它 有 一 个 限制 条 件 ; 即 被 处 理 的 信号 z (0) 必须 是 最 小 相位 信和 号。 实际 上 许多 信号 
都 是 最 小 相位 信号 ,或 可 以 看 作 是 最 小 相位 信号 。 语 音信 号 的 模型 就 是 极点 都 在 平面 间 
位 圆 内 的 全 极 模 型 ,或 者 极 零点 都 在 和 平面 单位 圆 内 的 极 零 模 型 。 

最 小 相位 信号 法 是 由 最 小 相位 信和 号 序列 的 复 倒 谱 性 质 , 以 及 布尔 介 特 (CHilbertb 变换 的 
性 质 推 导出 来 的 。 设 信号 z(z) 的 QZ 变换 为 X(z) 一 NOCz)/ DCz), 则 有 


i a N(z) i 
上 (zh 一 logA (2) log Be (3-99) 
根据 Z 变换 的 微分 性 质 有 
A Nn d > ,i d 呈 N(z) 
DO) ?六 4 (>) 区 到 | os Dez) 
i N (zz) D(z)N’'(z) — N(z)D' (z) 
一 让 [pe] _ _ D(z) 
本 2 D(z) 
sd z)N’'(z) — N(z)D’ (xz) (3_100) 


N(z)D(z) 

如 果 x(n) 是 最 小 相位 信和 号, 则 N(xz) 和 D(z) 的 所 有 根 均 在 Z 平 面 的 单位 加 ,nz (nn) 的 2Z 
变换 的 所 有 极点 也 均 位 于 2Z 平面 单位 圆 内 。 这 表明 , 右 x(n) 是 最 小 相位 信号 , 则 xz(n) 必 人 然 
是 稳定 的 因 琳 序列。 

男 一 方面 ,由 希 尔 伯 特 变换 的 性 质 可 知 , 任 一 因果 的 复 倒 谱 序列 z(n) 都 可 以 分 解 为 偶 
对 数 分 量 x.(n) 和 奇 对 数 分 量 X,(n) 之 和 , 即 

Xn) = zn) + zon) (3-101) 
而 且 , 这 两 个 分 量 的 傅 里 叶 变 换 分 别 为 zz) 的 傅 里 叶 变 换 的 实 部 和 虚 部 。 设 


X(o) = > imei” = Xr(w) 十 jXi(Co) (3-102) 
则 
a = 
Wl (3-103) 
Xi(w) = :2 Xn)e (3-104) 


图 3-27 给 出 了 将 复 倒 谱 因 果 序 列 x (07) 分 解 为 Xz.(n) 和 zx。(n) 的 情况 。 由 图 可 见 , 它 们 
可 由 (nn) 和 xX( 一 nn) 求 得 


i 二 [Cn) | (3-105) 
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i [Zn) | (3-106) 
由 此 可 得 
0 ， 1 一 
x(n) = 0 i 二 人 D (3-107) 
pr 


图 3-27 因 末 序列 的 分 解 和 恢复 


这 表明 ,一 个 因果 序列 可 由 其 偶 对 称 分 量 来 恢复 。 如 果 引 入 一 个 辅助 因子 gn), 则 上 式 可 


以 写 为 
Xn) = g(n) zx.(n) (3-108) 
起 由 
WU nO 
g(n)= 431, n=0 (3-109) 
2 RR>0 


根据 上 述 原 理 , 可 以 面 出 最 小 相位 法 求 复 倒 谱 的 原理 框图 ,如 图 3-28 所 示 。 


Yi (0 ZL) ,ne 
=9(@) si 
2 天 全 0 


图 3-28 ”最 小 相位 信号 法 求 复 倒 谱 


3. 递归 法 
这 也 是 一 种 避 开 相位 卷 绕 而 能 从 z(2z) 求 出 zz) 的 方法 。 它 也 仅 限 于 z(z) 是 最 小 相位 


2 


信号 的 情况 。 所 谓 递 归 是 指 在 运算 (nn) 时 ,除了 要 已 知 zx(n) 之 外 ,还 要 知道 在 n 二 n 时 
ZX(n ) 各 值 。 根 据 Z 变换 的 微分 特性 ,有 


i CX (2) 
a 了 ae 2 : 
一 < 二 入 (z) 一 二 LiogX(z z) | XE) (3-110) 
得 
J (3-111) 
dz dz 
对 上 式 求 Z 逆 变 换 ,根据 Z 变换 的 微分 性 质 , 有 
[nz(n) |* x(n) = nz (n) (3-112) 
或 写 为 
和 [ 天灾 (天 ) rn — Ek) = nz (n) (3-113) 
正三 一 已 富 
所 以 
和 一 pb3 (Ez 一 下 ，n 关 0 (3-114) 
下 二 一 83 


设 ZT(n) 是 最 小 相位 信号 序列 ,而 最 小 相位 信号 序列 一 定 为 因果 厅 列 ,所 以 有 
汪汪 和 
| (3-115) 
tn) C—O no 
此 时 可 以 将 x(n) 写 作 
n | 2 . 
Zz(n) 一 > (ECarcn—k) = > (Ej) — A + Cz(0) (3-116) 


其 中 ,由 于 当 有 0 时 ,XT(k)= 二 0; 且 在 kn 时 xz(x 一 上 k) 二 0, 所 以 求 和 的 上 下 限 变 为 由 0 到 
n。 由 此 得 到 的 递归 公式 为 


i 5 zx(n— 、 攻 
一 了 可 (k) 人 sy WO (3-117) 


在 实际 应 用 中 ,一 般 只 知道 x(n), 并 不 知道 在 nx 二 n 时 xz (mn)。 但 是 可 以 在 第 一 次 递归 
之 前 先 求 出 z(0) ,这样 就 可 以 进行 递归 运算 。 求 (0) 的 方法 如 下 ,由 复 倒 谱 定义 


tn) = 2 {ogZ| rtn) |} = 2Z 1log| 2 > TX(n)z a (3-118) 
在 7 一 0 时 
(0) 一 和 1ILlogzr(0) | 一 logzr(0)6(2) | = logx(0) (3-119) 
顺便 指出 ,如果 xz(n) 是 最 大 相位 序列 , 则 式 (3-109) 中 的 g(n) 为 
四 台 守 
(nn) 二 1 天 三 过 Ca) 
2 NO0 
而 这 时 化 归公 式 变 成 
Eee 2) a x(nO— kk) 、 
i 1 ,nn<0 
Btn) 0 Pn EE a n < ( (3-121) 


3.7.4 ”基于 听觉 特性 的 Mel 频率 倒 谱系 数 
在 语音 识别 和 说 话 人 识别 中 ,常用 的 语音 特征 是 基于 Mel 频率 的 倒 谱系 数 (mel 


I 
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frequency cepstrum coefficient, MFCC)。 由 于 MFCC 参数 是 将 人 耳 的 听 筑 感知 特性 和 话 
音 的 产生 机 制 相 结合 ,因此 大 多 数 语 音 识别 系统 中 广泛 使 用 这 种 特征 。 

人 了 有 耳 具 有 一 些 特 殊 的 功能 ,这 些 功 能 使 得 人 耳 在 喷洒 的 环境 中 ， re dns 
能 正常 地 分 辨 出 各 种 语音 ,其 中 耳蜗 起 了 很 关键 的 作用 。 耳 蜗 实 质 上 的 作用 相当 于 一 个 滤 
波 天 组 ,耳蜗 的 滤波 作用 是 在 对 数 频 率 乒 度 上 进行 的 ,在 1000Hz 以 下 为 线 ee 
1000Hz 以 上 为 对 数 尺度 ,这 就 使 得 人 耳 对 低频 信号 比 对 遍 频 信号 时 敏感 。 根据 这 一 原则 ， 
研究 者 根据 心理 学 实验 得 到 了 类 似 于 耳蜗 作用 的 一 组 滤波 颖 组 ,这 就 是 Mel 频率 滤波 各 
组 。Mel 频率 可 以 用 如 下 公式 表示 

fua = 2595 X lg(1 十 f/700) (3-122) 

对 频率 轴 的 不 均匀 划分 是 MFCC 特征 区 别 于 前 面 所 述 的 普通 倒 谱 特征 的 最 重要 的 特 
点 。 将 频率 按照 式 (3-122) 变 换 到 Mel 域 后 ,Mel 禹 通 滤 波 闪 组 的 中 心 频率 是 按照 Mel 频率 
刻度 均匀 排列 的 。 在 实际 应 用 中 ,MFCC 倒 谱 系数 计算 过 程 如 下 : 

(1) 将 信号 进行 分 帧 , 预 加 重 和 加 汉 明 窗 处 理 , 然 后 进行 短 时 傅 里 叶 变 换 得 到 其 频谱 ; 

(2) 求 出 频谱 平方 , 即 能 量 谱 , 并 用 M 个 Mel 带 通 滤波 器 进行 滤波 ,由 于 每 一 个 频带 中 
分 量 的 作用 在 人 耳 中 是 全 加 的 ,因此 将 每 个 滤波 频 市 内 的 能 量 进行 个 加 ,这 时 党 个 滤波 痢 
输出 功率 谱 江 '(k); 

(3) 将 每 个 滤波 髓 的 输出 取 对 数 ,得 到 相应 频带 的 对 数 功 率 谱 ; 并 进行 反 离 散人 余弦 变 
换 ,得 到 工 个 MEFCC 系数 ,一 般 工 取 12 一 16, 如 下 却 所 示 : 


= Plogz (k)cos| x(k—0.5)n/M|, n=1,2,.%…,L (3-123) 


一 ] 


(4) 这 种 直接 得 到 的 MFCC 特征 作为 静态 特征 ,将 这 种 静态 特征 做 一 阶 和 二 阶 差 分 ， 
得 到 相应 的 动态 特征 。 
表 3-3 给 出 了 13 维 MFCC 特征 及 其 动态 特征 对 系统 识别 性 能 的 影响 。 
表 3-3 动态 特征 对 系统 识别 性 能 的 影响 


特征 集合 相对 误 识 率 的 降低 相对 误 识 率 的 降低 


13 维 的 LPCC 特征 基线 系统 1 阶 和 2 阶 动态 特征 十 20% 
13 维 的 MFCC 特征 3 阶 动态 特征 +0% 


16 维 的 MFCC 特 征 | +%% | 


表 3-3 以 13 维 的 LPCC 倒 谱 特征 为 基线 系统 ,可 以 看 出 ,MFCC 系统 由 于 有 效 利 用 了 
听 完 特性 ,因此 其 改进 了 识别 系统 性 能 。 如 果 将 倒 详 维 数 境 加 ,对 识别 性 能 影响 不 大 , 误 识 
率 基 本 上 与 13 维 时 一 样 。 但 采用 动态 特征 , 误 识 率 可 以 有 20% 的 下 降 。 动 态 阶 数 继续 增 
加 时 ,其 性 能 没有 进一步 提高 。 


3.8 语音 信号 特征 应 用 
前 面 各 节 介 绍 了 语音 信号 的 时 域 特 征 、 频 域 特征 ,以 及 一 些 可 直接 用 于 语音 依 号 处 理 的 


其 他 特征 等 。 此 外 ,语音 信 言 号 中 还 有 一 些 如 共振 峰 和 基 音 周期 等 固有 特征 ,本 市 将 对 这 些 问 
题 加 以 介绍 
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3.8.1 基 音 周期 他 计 

基 音 是 指 发 浊音 时 声 融 振动 所 引起 的 周期 性 ,而 基 音 周期 是 指 声带 振动 频率 的 倒数 。 
由 于 它 只 是 准 周 期 性 的 ,所 以 只 能 采用 短 时 平均 方法 估计 其 周期 ,这 个 过 程 也 常 称 为 基 首 检 
测 (pitch detection ) 。 

基 音 周期 是 语音 信号 最 重要 的 参数 之 一 , 它 的 提取 是 语音 信号 处 理 中 一 个 十 分 重要 的 
问题 ,尤其 是 对 汉语 更 是 如 此 ; 因为 汉语 是 一 种 有 调 语言 , 基 音 的 变化 模式 称 为 声调 。 声 调 
携带 着 非常 重要 的 具有 辨 意 作 用 的 信息 ,有 区 别 意义 的 功能 。 根 据 加 窗 的 短 时 语音 帧 来 估 
计 基 音 周 期 ,在 语音 编 解 码 硕 .语音 识别 .说话 人 确认 和 辨认 ,以 及 生理 缺 聊 人 的 辅助 系统 等 
许多 领域 都 是 重要 的 一 环 。 目 进行 语音 信和 号 分 析 研 究 以 来 , 基 音 检测 一 直 是 一 个 重点 研究 
的 课题 ,已 经 提出 了 很 多 方法 ,然而 这 些 方法 都 有 它们 的 局 限 性 。 迄 今 为 止 , 尚 未 找到 一 个 
完善 的 可 以 适用 于 不 同 的 说 话 人 不 同 的 要 求 和 环境 的 基 音 检测 方法 。 

基 音 检测 的 主要 困难 表现 在 : 中 语音 信号 变化 十分 复杂 , 声 门 激励 的 波形 并 不 是 一 
个 完全 周期 的 序列 ,在 语音 的 头 、 尾部 并 不 具有 声 市 振动 那样 的 周期 性 ,对 有 些 清 浊音 的 
过 渡 帧 是 很 难 判定 它 应 属于 周期 性 或 非 周期 性 ,从 而 也 就 无 法 估计 出 基 音 周期 ; 包 要 从 
请 音信 号 中 去 除 声 道 的 影 啊 , 和 直接 取 出 仅 与 声 市 振动 有 关 的 声 源 信息 并 非 易 事 , 例 如 声 
站 共振 峰 有 了 时 会 严重 影响 激励 信号 的 谐 波 结构 ; 在 浊音 段 很 难 精确 地 确定 每 个 基 音 周期 
的 开始 和 结束 位 置 ,这 不 仅 因为 语音 信号 本 身 是 准 周 期 的 ,也 是 因为 波形 的 峰 受 共振 峰 结 
构 .噪声 等 影响 ; 由 基 音 周期 变化 范 于 较 大 ,从 低音 (男声 )80Hz 直到 (女孩 )500Hz, 也 给 基 
音 周 期 的 检测 市 来 了 一 定 的 困难 。 另 外 ,浊音 信号 可 能 包含 有 30 一 40 次 谐 波 分 量 , 而 基 波 
分 量 往往 不 是 最 踢 的 分 量 。 因 为 语音 的 第 一 共振 峰 通 稼 在 300 一 1000Hz 范围 内 ,这 就 是 
说 ,2 一 8 次 谐 波 成 分 往往 比 基 波 分 量 还 强 。 丰 富 的 谐 波 成 分 使 语音 信号 的 波形 变 得 很 复 
杂 ,给 基 音 检测 珊 来 困难 ,经 稼 发 生 基 频 佑 计 结 末 为 实际 基 音 频率 的 二 .三 次 倍 频 或 二 次 分 
频 的 情况 。 

基 音 检测 的 方法 大 致 可 分 为 三 类 : 由 波形 估计 法 ,直接 由 语音 波形 来 估计 基 首 周期 ,分 
析出 波形 上 的 周期 峰值 ,包括 并 行 处 理 法 .数据 减少 法 等 ; 包 相 关 处 理 法 ,这 种 方法 在 语音 
言 写 处 理 中 广泛 使 用 ,这 是 因为 相关 处 理 法 抗 波 形 的 相位 失真 能 力 强 , 男 外 它 在 人 硬件 处 理 上 
结构 简单 ,包括 波形 和 月 相关 法 .平均 振幅 差分 图 数 法 (AMDF) .简化 逆 滤 波 法 (CSIFT) 等 ; 
3) 变换 法 ,将 语音 信号 变换 到 频 域 或 倒 谱 域 来 售 计 基 音 周期 ,利用 同 态 分 析 方 法 将 声 道 的 影 
啊 消 除 , 得 到 属于 激励 部 分 的 信息 ,进一步 求 取 基 音 周期 ,比如 倒 谱 法 。 虽 然 倒 谱 分 析 算 法 
比较 复杂 ,但 基 音 估计 效果 较 好 。 各 种 方法 的 对 比 见 表 3-4 所 示 。 

表 3-4 ”典型 的 基 音 周期 检测 方法 
由 多 种 简单 的 波形 峰值 检测 器 决定 提取 的 多 数 基 音 周期 


pre 根据 各 种 理论 操作 ,从 波形 去 掉 修 正 基 音 脉冲 以 外 的 数据 


关于 波形 的 过 和 零 率 ,看 眼 于 重复 图 形 
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续 表 


目 相 关 法 语 首 波形 的 目 相 关 函 数 , 根 据 中 心 剧 波 平坦 处 理 频谱 ,采用 峰值 曾 波 可 以 
及 其 改进 简化 运算 


相关 Fe _ 
全 TE vis 荆 ,了 | LL TT . . 在 上 旧 谱 ,3 计 
处 更 法 | SIET 计算 法 “| 语音 波形 降低 采样 后 ,进行 LPC 分 析 , 用 着 滤波 器 平坦 处 理 频谱 ,通过 预 


测 误 差 的 自 相 关 函 数 , 恢 复 时 间 精 度 
A MDF 采用 平均 幅 差 哺 数 检测 周期 性 ,也 可 以 根据 残 差 信号 的 AMDF 进行 提取 
倒 谱 法 根据 对 数 功 率 谱 的 傅 里 叶 反 变换 ,分 离 频谱 包 络 和 微细 结构 
循环 直方 图 在 频谱 上 求 出 基 频 高 次 谐 波 成 分 的 直方 图 ,根据 高 次 谐 波 的 公约 数 决 定 基 音 


下 面 介 绍 常用 的 几 种 基 音 检测 方法 。 

1. 自 相关 方法 

浊音 信号 的 日 相关 函数 在 基 音 周期 的 整数 倍 位 置 上 出 现 峰值 ,而 清音 的 日 相关 函数 没 
有 明显 的 峰值 出 现 , 因 此 检测 和 月 相关 图 数 是 否 有 峰值 就 可 以 判断 是 清音 或 浊音 , 峰 -峰值 之 
间 对 应 的 就 是 基 首 周期 ， 

影响 从 自 相 关 函 数 中 正确 提取 基 音 周期 的 最 主要 原因 是 声 道 啊 应 部 分 。 当 基 音 的 周期 
性 和 共振 峰 的 周期 性 混在 一 起 时 ,被 检测 出 来 的 峰值 就 可 能 会 偏离 原来 峰值 的 真实 位 置 。 
男 外 , 茶 些 浊音 中 ,第 一 共振 峰 频 率 可 能 会 等 于 或 低 于 基 音 频率 。 此 时 ,如 采 其 幅度 很 高 , 它 
就 可 能 在 自 相 关 函 数 中 产生 一 个 峰值 ,而 该 峰值 又 可 以 同 基 音 频率 的 峰值 相 比 拟 。 


为 了 提高 上 月 相关 方法 检测 基 音 周期 的 准确 性 ,需要 进行 一 ct 
些 前 期 的 预 处 理 。 


1) 预 处 理 

语音 信号 的 低 幅 值 部 分 包含 大 量 的 共振 峰 信息 ,而 高 幅 值 
部 分 包含 较 多 的 基 音 信息 。 因 此 ,任何 痢 减 或 者 抑制 语音 低 幅 
度 部 分 的 非 线 性 处 理 部 会 使 日 相关 方法 的 性 能 得 到 改善 。 中 
心 削 波 即 是 一 种 非 线 性 处 理 , 它 消除 语音 信号 的 低 幅 度 部 分 ， 


其 前 波 特性 如 图 3-29 所 示 ,数学 表达 形式 为 Po 
[x(n) 一 上 XxX(n) >C 
y(n) = Cn) = 40,， | :二 (3-124) 


[ata 0 
式 中 ,前 波 电 平 Ci 由 请 音信 号 的 峰值 幅度 来 确定 , 它 等 于 请 首 有 段 最 大 幅度 的 一 个 固定 白 
分 数 ,一 般 取 最 大 信号 幅度 的 60% 一 70%。 这 个 门限 的 选择 是 重要 的 ,一 般 在 不 损失 基 
音信 息 的 情况 下 应 尽 可 能 选 得 高 些 , 以 达到 较 好 的 效果 。 经 过 中 心 副 波 后 只 保留 了 超过 
闭 流 电 平 的 部 分 ,其 绪 宁 是 前 去 了 许多 和 声 道 啊 应 有 关 的 波动 。 对 中 心 削 波 后 的 声音 册 
计算 上 月 相关 图 数 , 这 样 在 基 音 周期 位 置 呈 现 大 而 尖 的 峰值 ,而 其 余 的 次 要 峰值 幅度 都 很 
小 。 据 报道 使 用 这 种 方法 ,对 电话 寓 宽 的 培 音 在 信 曲 比 低 人 至 18dB 的 情况 下 获得 了 民 好 


的 性 能 。 
计算 月 相关 男 数 的 运算 量 是 很 大 的 ,其 原因 是 传统 的 计算 机 进行 滋 法 运算 非常 费时 。 


尽管 近年 来 随 看 数字 信号 处 理 带 的 三 沁 使 用 ,实时 地 计算 日 相关 了 雏 数 已 经 不 是 问题 ,但 在 基 
音 检 测 中 仍 袋 有 一 些 减 少 短 时 目 相 关 运 算 的 有 将 方法 。 例 如 可 对 中 心 削 波 困 数 进行 修正 ， 
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采用 三 电 平 中 心 前 波 的 方法 ,如 图 3-30 所 示 。 其 削 波 困 数 为 CIx] 
] ， a 
yny = Clr(n) | = 10, | xtn) | Cr (3=125》 
一 1， zx(n) <— Cr 
即 削 波 冀 的 输出 在 z(2) 全 C 时 为 1 ,zn) 二 一 C; 时 为 一 1， 
除 此 以 外 均 为 零 。 虽 然 这 一 处 理会 增加 刚刚 超过 削 流 电 平 峰 
的 重要 性 ,但 大 多 数 次 要 的 峰 被 滤 除 反 了 ,而 只 保留 了 明显 的 
周期 性 峰 ， 图 3-30 ”三 电 平 前 波 函 数 

此 外 ,还 可 以 用 一 个 通 市 为 900Hz 的 线性 相位 低 通 滤波 融 滤 除 高 次 谐 波 分 量 。 这 样 处 
理 后 的 信和 号 ,基本 上 只 含有 第 一 共振 峰 以 下 的 基 波 和 谐 波 分 量 。 实 验 表 明 ,用 这 种 方法 做 预 
处 理 , 对 改善 日 相关 和 平均 幅度 差 国 数 法 的 基 音 检测 都 有 明显 的 效果 。 

2) 基于 上 月 相关 函数 的 基 音 检测 
短 时 目 相 关 困 数 在 基 音 周期 的 各 个 整数 倍 点 上 有 很 大 的 峰值 ,只 要 找到 第 一 最 大 峰值 
点 的 位 置 ,并 计算 它 与 原点 的 间 隅 , 便 能 估计 出 基 音 周期 。 但 实际 上 并 不 是 这 么 徐 单 ,第 一 
个 最 大 峰值 点 的 位 置 有 时 不 能 与 基 音 局 期 相 吻 合 。 产 生 这 种 情 次 的 原因 有 两 个 方面 : 一 方 
面 与 窗 的 长 度 有 关 ,一 般 认 为 窗 长 至 少 应 大 于 两 个 基 音 周期 , 才 可 能 有 较 好 的 效果 ; 男 一 方 
面 与 声 道 特性 的 影响 有 关 , 有 的 情况 下 ,即使 窗 长 已 经 选 得 足够 长 ,种 一 个 最 大 峰值 点 与 基 
音 周 期 仍 不 一 致 ,这 就 是 声 站 共振 峰 特 性 的 干扰 。 经 过 上 述 市 通 滤波 的 预 处 理 , 可 以 消 除 大 
部 分 的 共振 峰 的 影响 。 但 是 ,如 条 硕 望 减少 上 月 相关 计算 中 的 来 法 运算 ,可 以 把 上 述 中 心 前 波 
后 的 信号 {y(n)} 的 目 相 关 序 列 用 两 个 信号 的 互相 关 序 列 代 兰 ,其 中 一 个 信号 是 {y(n)}, 男 

-个 信号 是 对 {y(n)} 进 行 三 电 平 量化 产生 的 结果 {y(n))。 显 然 ,y (n) 只 有 一 1,0, 十 1 三 
种 可 能 的 取 值 ,因而 这 里 的 互相 关 计 算 只 需 做 加 减法 ,而 这 个 互相 关 厅 列 的 周期 性 与 
(y(72)} 的 日 相关 友 列 近似 相同 。 

下 面 结 合 L. R. Rabiner 在 一 篇 论文 中 介绍 的 具体 例子 来 叙述 关于 目 相 关 函 数 的 基 音 
检测 方法 。 假 设 信号 的 采样 率 为 10kHz, 窗 序列 采用 300 点 的 矩形 窗 , 帧 三 200 点 。 这 时 对 
每 一 帧 进行 基 音 周期 佑 计 的 步 又 如 下 : 

(1) 用 900Hz 低 通 滤波 需 对 一 怖 声音 信号 {z(z)} 进行 滤 波 , 并 去 反 开 头 的 20 个 输出 
值 不 用 ,得 到 {z (n)}。 

(2) 分 别 求 14z (nw)} 的 前 部 100 个 样 点 和 后 部 100 个 样 点 的 最 大 幅度 ,并 取 其 中 较 小 的 
一 个 , 乘 以 因子 0. 68 作为 门限 电 平 Ci。 

(3) 对 {zx (n)}) 分 别 进行 中 心 前 波 得 到 {y(n)} 和 三 电 平 量化 得 到 {y(n))。 


300 


(4) 求 这 两 个 信号 的 互相 关 值 RCR)。 其 中 RG) = > yn) y(n 十 k), 此 处 & 的 取 值 


范围 20 一 150 相应 于 基 音 频率 范围 60 一 500Hz,R(0) 相 应 于 短 时 能 量 。 

(5) 得 到 互相 关 值 后 ,可 以 得 到 R(20)…R(150) 中 的 最 大 值 Rw ,如 果 Rss 二 0. 25R(0)， 
则 认为 本 帧 为 清音 , 令 其 基 音 周期 值 为 0, 否则 基 音 周期 即 为 使 R(R) 为 最 大 值 R, 时 位 置 
的 值 , 即 p—argmaxR(k). 

2. 基于 短 时 平均 幅度 差 的 基 音 周期 估计 

平均 幅度 差 函数 只 涉及 加 减 和 求 绝对 值 运算 ,因此 不 需要 做 中 心 前 波 和 三 电 平 量化 。 
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首先 ,只 要 将 一 帧 信号 {x(n)}) 经 过 900Hz 低 通 滤波 器 处 理 后 得 到 {x'(n)}; 计算 {z (az) 的 
平均 幅度 差 图 数 yY(CR) ,并 求 出 取得 这 一 最 小 值 时 的 下 标 作 为 基 音 周期 的 初步 值 , 即 p 二 
argminy(R)。 这 时 的 平均 幅度 震 盟 数 的 最 小 但 为 yoams 一 miny(R)。 其 次 , 搜 亏 平均 幅度 孝明 
数 的 右 干 局 部 极 小 值 点 作为 基 音 周期 的 候选 。 这 些 局 部 极 小 值 点 必须 江 足 两 个 条 件 : 山 其 
取 值 应 在 ya 一 Xum 十 yzrr 的 范 于 内 ,yz 是 一 个 恰当 选取 的 国 值 ; 包 各 个 局 部 极 小 值 点 之 则 
的 间隔 不 得 小 于 lrn ,Lirn 是 一 个 恰当 选取 的 间 隐 值 ,在 实际 应 用 中 要 根据 实验 确定 。 对 于 各 
个 局 部 极 小 值 点 进行 再 度 检查 ,确定 清晰 点 。 在 茶 个 最 小 点 左右 各 8 个 点 犯 围 内 对 平均 幅 
度 差 图 数 求 平均 ,各 该 最 小 点 与 此 平均 值 的 差距 大 于 茶 个 国 值 加 , 称 为 清晰 点 ; 最 后 ,在 所 
有 清晰 点 中 找到 最 左边 的 那个 点 , 驶 是 该 帧 坪 音 的 基 音 周期 信 。 

3. 倒 谱 法 

对 语 首 信号 利用 倒 谱 解 卷 原理 ,可 以 得 出 激励 序列 的 倒 谱 , 它 具 有 与 基 音 周期 相同 的 周 
期 ,因此 可 以 容易 且 精 确 地 求 出 基 音 周期 。 图 3-31(a) 为 语音 信号 对 数 频 谱 示 意图 , 它 包 含 
两 个 分 量 : 对 应 于 频谱 包 络 的 慢 变 分 量 ( 如 虚线 所 示 ) ,以 及 对 应 于 基 音 谐 波 峰值 的 快 变 分 
量 ( 如 和 实 线 所 示 )。 通 过 滤波 或 表 取 一 次 傅 里 叶 逆 变换 , 即 可 将 慢 变 分 量 与 快 变 分 量 分 离开 。 
图 3-31(b) 为 倒 谱 c(n) 的 示意 图 ,其 中 菲 近 原点 的 低 倒 频 部 分 是 频谱 包 络 的 变换 ， 人 to 
处 的 罕 峰 为 谐 波 峰值 的 变换 ,表示 基 音 。 基 音 峰 值 的 变换 与 频谱 包 络 变换 之 加 的 间 隅 总 
足 驶 大 ,从 而 能 对 前 痢 很 容易 地 加 以 识别 。 


(a) 对 数 幅 度 谱 
幅度 
0 1 20 倒 频 
(b) 倒 谱 波形 


图 3-31 倒 谱 示 意图 


下 面 举 一 个 用 倒 谱 提 取 基 音 的 实例 ,如 图 3-32 所 示 , 其 工作 原理 简要 说 明 如 下 。 

(1) 采样 率 为 1 0kHz, 幅 长 51. 2ms, 用 汉 明 和 窗 平 滑 ,然后 求 出 倒 谱 。 汉 明 窗 的 长 度 以 及 
窗 相 对 于 语音 信号 的 位 置 , 对 倒 谱 峰 的 高 度 有 相当 大 的 影响 。 为 使 倒 请 具有 明显 的 周期 性 ， 
窗口 选择 的 坪 音 段 应 至 少 包 含有 两 个 明显 的 周期 。 例 如 对 基 音 频率 低 的 男性 ,要 求 窗 口 长 
度 为 40ms; 而 对 基 音 频率 高 的 语音 , 窗 的 长 度 可 以 成 比例 地 缩短 。 

(2) 求 出 倒 谱 峰 值 I 及 其 位 置 1 ,如果 峰值 未 超过 菜 门限 值 , 则 进行 过 等 计算 ; 右 过 
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充 明 窗 w(n z 
羡 w(n) X(m) a 夫 庆 ae 
语音 | 分 为 512 | 心 『 512 点 512 点 | | 峰值 | 有 无 志和 
的 DET Ln ns Os 
输入 | ms 的 段 Sy DFT 检测 四 判决 器 
大 所 
无 再 


无 上 声 检 测 硕 


图 3-32 ” 基 音 检测 的 倒 谱 法 


去 率 低 于 某 门限 值 , 则 为 无 声 语 音 帧 。 反 之 , 则 为 有 声 语 音 帧 , 且 基 音 周 期 仍 等 于 该 峰值 的 
位 置 。 

(3) 图 中 的 无 声 检 测 硕 是 时 域 信 号 的 峰值 检测 硕 ; 硅 低 于 某 门 限 值 , 则 认为 是 无 声 , 不 
进行 上 述 由 倒 谱 检测 基 音 的 计算 。 

当 采 用 无 噪 语音 时 , 倒 谱 法 进行 基 音 检测 是 很 理想 的 。 然 而 当 存 在 加 性 噪声 时 ,在 对 数 
功率 谱 中 的 低 电 平 部 分 被 噪声 填 满 ,掩盖 了 基 音 谐 波 的 周期 性 。 这 意味 着 倒 谱 的 输入 不 再 
是 纯净 的 周期 性 成 分 ,而 倒 谱 中 的 基 音 峰值 将 会 展览 ,并 受到 噪声 的 污染 ,从 而 使 倒 谱 的 灵 
敏 度 也 随 之 下 降 。 

4. 简化 逆 滤 波 法 

简化 的 逆 滤 波 跟 踩 算法 先 抽 取 声 着 模型 参数 ,利用 这 些 参 数 对 原 信 号 进行 逆 滤 波 , 从 预 
测 误 差 中 得 到 声 源 序列 ,再 用 目 相 关 法 求 得 基 音 周期 。 语 音信 号 通过 线性 预测 逆 滤 波 需 后 
达到 频谱 的 平坦 化 。 预 测 误差 是 目 相 关 硕 的 输入 ,通过 与 门限 的 比较 可 以 确定 浊音 ,通过 辅 
助 信息 可 以 减少 误差 。 

简化 逆 滤 波 需 的 原理 框图 如 图 3-33 所 示 ,其 工作 过 程 如 下 : 


i pk dposl 
语音 | 低 通 滤波 自 相关 及 | | 内 插 | | 有 无声 
输入 | 900Hz 峰值 检测 1:5 判决 病 一 
To hosl 大 
抽取 模 
型 参数 


图 3-33 简化 逆 滤 波 法 原理 


无 声 检测 肴 


(1) 语音 信号 经 过 10kHz 采样 后 ,通过 0 一 900Hz 的 低 通 滤波 器 ,然后 将 采样 率 降低 为 
原 采 样 率 的 1/5( 因 为 激励 序列 的 宽度 小 于 1kHz, 所 以 用 2kHz 采样 就 足够 了 ); 当然 ,后 面 
要 进行 内 插 。 

(2) 提取 降低 采样 率 后 的 信号 模型 参数 (LPC 参数 , 见 第 4 章 ), 利 用 声 道 模型 参数 构造 

-个 逆 滤 波 器 。 经 过 逆 滤 波 需 后 的 信号 是 与 声 道 特性 分 离 的 激励 源 信 号 ,经 过 相应 的 自 相 
关 算 法 后 ,检测 出 峰值 及 其 位 置 , 就 得 到 基 音 周期 值 。 
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(3) 最 后 进行 有 /无 声 判 决 。 与 前 面倒 谱 法 类 似 , 有 一 个 无 声 检测 需 , 以 减少 运算 量 。 

在 基 音 检测 中 ,广泛 采用 对 语音 波形 或 误差 信号 波形 进行 低 通 滤波 ,因为 这 种 低 通 滤波 
对 提高 基 音 检测 精度 有 良好 的 效果 。 低 通 滤 波 在 去 除了 高 阶 共振 峰 影 啊 的 同时 ,还 可 以 补 
充 日 相关 函数 时 间 分 辨 率 的 不 足 。 特 别 是 后 者 在 用 线性 预测 误差 的 上 日 相关 函数 的 基 音 检测 
中 尤其 重要 。 

无 论 采 用 哪 一 种 算法 求 得 的 基 音 周期 轨迹 与 真实 的 基 音 周期 轨迹 不 可 能 完全 一 致 。 实 
际 情况 是 大 部 分 段落 是 一 致 的 ,而 在 一 些 局 部 段落 或 区 域 中 有 一 个 或 几 个 基 音 周期 的 估计 
值 偏离 了 正常 的 轨迹 (通常 是 偏离 到 正常 值 的 2 倍 或 1/2) ,这 时 称 为 基 音 轨迹 产生 了 者 干 
“时 点 ”。 为 了 去 除 这 些 野 点 ,可 以 采用 各 种 平滑 算法 ,其 中 最 常用 的 是 中 值 平滑 算法 和 线性 
平滑 算法 。 

在 中 值 滤波 平滑 算法 中 ,被 平滑 点 的 左右 各 取 工 个 样 点 ,连同 被 平 请 点 共同 构成 一 组 
2L 十 1 个 信号 样 点 值 。 将 这 些 样 点 值 按 大小 次 序 排 成 一 队 , 取 此 队列 中 间 者 作为 平滑 虽 的 
输出 。L 值 一 般 取 为 1 或 2, 即 中 值 平滑 的 “窗口 ”一 般 套 住 3 或 5 个 样 值 。 中 值 平滑 的 优点 
是 既 可 以 有 效 地 去 除 少 量 野 点 , 叉 不 会 破坏 基 音 周期 轨迹 中 的 两 个 平滑 段 之 间 的 阶 跃 性 
化， 

线性 平滑 是 用 滑动 窗 进行 线性 滤波 处 理 , 即 


L, 
y(n) = > TRO— Wm 2 two) (3-126) 
m= 二 —L 
式 中 ,wlm),m 二 一 上 ,一 十 1 一 ,0,"…, 工 ) 为 2L 十 1 氮 平 请 和 窗 , 满 足 
i = 1] (3=-127) 


m 一 一 上 


例如 ,三 点 窗 的 值 可 取 为 40. 25,0.5,0. 25}。 线 性 平滑 在 纠正 输入 信号 中 不 平滑 处 样 点 
的 同时 ,也 使 附近 的 样 点 值 做 了 修改 ,所 以 窗 长 不 易 过 大 。 


3.8.2 ”共振 峰 的 估计 


共振 峰 是 反映 声 道 谐振 特性 的 重要 特征 , 它 代 表 了 发 音信 息 的 最 直接 的 来 源 , 而 且 人 在 
音 感 知 中 也 利用 了 共振 峰 信息 。 有 所 以 共振 峰 是 语 首 信号 处 理 中 非常 重要 的 特征 参数 。 
共振 峰 信 息 包 含 在 语音 频谱 包 络 中 ,因此 提取 共振 峰 参 数 的 关键 是 估计 语音 的 频谱 包 
络 ,一 般 认 为 谱 包 络 中 的 最 大 值 就 是 共振 峰 。 与 基 首 检测 类 似 , 共 振 峰 估计 也 是 表面 上 看 起 
来 很 容 多 ,而 实际 上 又 受 许 多 问题 困扰 。 这 些 问题 包括 以 下 几 类 。 

(1) 虚假 峰值 。 在 正常 情况 下 ,频谱 包 络 中 的 极 大 值 完 全 是 由 共振 峰 引 起 的 。 但 在 线 
性 预测 分 析 方 法 出 现 之 前 的 频谱 包 络 估计 项 中 ,出 现 虚 假 峰 值 是 相当 普遍 的 现象 。 甚 至 在 
采用 线性 预测 方法 时 ,也 并 非 没 有 虚假 峰值 。 为 了 增加 灵活 性 会 给 预测 器 增加 2 一 3 个 额外 
的 极点 ,有 时 可 利用 这 些 极点 代表 虚假 峰值 。 

(2) 共振 峰 合 并 。 相 邻 共 振 峰 的 频率 可 能 会 ro pee he pt 
合并 现象 ,而 探讨 一 种 理想 的 能 对 共振 峰 合 并 进行 识别 的 共振 峰 提 取 算法 存在 很 多 实际 
困难 。 

> 证 半 全 得 基 传统 的 频谱 包 络 估计 方法 是 利用 由 谐 波 峰值 提供 的 样 点 。 高 音调 语 
音 ( 如 女声 和 童声 ) 的 谐 波 间隔 比较 宽 , 因 而 为 频谱 包 络 估 值 所 提供 的 样 点 比较 少 , 所 以 谱 包 


cn 


络 本 号 的 估计 就 不 够 精确 。 即 使 采用 线性 预测 进行 频谱 包 络 估计 也 会 出 现 这 个 问题 。 在 这 
样 的 语音 中 ,线性 预测 包 络 峰值 趋 问 于 离开 真实 位 置 , 而 朝 厦 最 接近 的 谐 波峰 位 移动 。 

下 面 讨 论 和 常用 的 几 种 共振 峰 提 取 方 法 。 

1. 基于 线性 预测 的 共振 峰 求 取 方 法 

一 种 有 将 的 频谱 包 络 佑 计 方 法 是 从 线性 预测 分 析 角 度 推 导出 声 道 滤波 需 , 根 据 这 个 声 
站 滤波 囊 找 出 共振 峰 。 虽 然 线性 预测 法 也 有 一 定 的 缺点 ,例如 其 频率 灵敏 度 与 人 耳 不 相 匹 
配 ,但 对 于 许多 应 用 来 说 , 它 仍 然 是 一 种 行 之 有 效 的 方法 。 线 性 预测 共振 峰 售 计 通 和 党 有 两 种 
途径 可 供 选 择 : 一 种 途径 是 利用 一 种 标准 的 寻找 复 根 的 程序 计算 预测 误差 滤波 冀 的 根 , 称 
为 求 根 法 ; 另 一 种 途径 是 找 出 由 预测 硕 导 出 的 频谱 包 络 中 的 局 部 极 大 值 , 称 为 选 峰 法 。 

1) 求 根 法 

这 种 方法 是 找 出 多 项 式 复 根 ,根据 求 得 的 根来 确定 共振 峰 。 通 常 采 用 牛顿 -拉夫 还 
(Newton-Raphson) 搜 索 算 法 。 该 算法 一 开始 先 猜 测 一 个 根 值 ,并 就 此 猜测 值 计 算 多 项 式 及 
其 导数 的 值 , 然 后 利用 计算 绪 朱 再 找 出 一 个 改进 的 猜测 值 。 通 背 当 前 后 两 个 猜测 信之 差 小 
于 有 菏 个 事先 设 定 的 国 值 时 ,结束 求 根 过 程 。 

奢求 出 的 根 为 实 根 , 则 在 多 项 式 中 相对 应 的 因子 项 是 线性 的 ; 奢 为 复 根 , 则 通过 该 根 及 
其 共 邢 可 以 找到 一 个 二 次 因 了 于 。 通 过 使 多 项 式 降 阶 有 效 地 去 挥 这 个 根 ,然后 利用 上 面 的 求 
根 方法 , 求 出 降 阶 后 多 项 式 的 与 此 不 同 的 根 。 多 项 式 降 阶 与 求 根 过 程 如 此 重复 进行 下 去 , 直 
到 将 全 部 的 根 找 出 为 止 。 由 于 被 去 兵 的 根 并 不 是 精确 已 知 的 ,从 而 导致 多 项 式 降 阶 总 要 造 
成 某 些 精度 的 损失 ,因而 用 这 种 方法 相继 求 出 的 根 在 精度 方面 越 来 越 差 。 避 人 免 这 个 问题 的 
方法 通常 是 对 于 未 降 阶 多 项 式 的 每 一 个 新 根 和 实行 最 后 的 牛顿 -拉夫 还 重复 运算 。 有 时 利用 
这 个 算法 可 能 会 找到 远离 单位 圆 的 猜测 值 ,这 时 可 以 将 猜测 值 到 原点 的 距离 限制 在 某 个 合 
适 的 范围 之 内 。 对 于 上 月 相关 预测 硕 ,极点 总 是 位 于 单位 圆 内 ; 而 对 于 协 方差 预测 胡 , 即 使 在 
最 坏 的 情况 下 ,极点 也 只 是 在 一 个 短 距 离 之 外 ,因此 上 述 限 制 并 不 妨碍 从 已 找 出 的 根 得 到 修 
正 根 。 

假如 每 一 帧 的 最 初 猜 测 值 与 前 一 帧 的 根 的 位 置 重 合 , 那 么 一 般 来 说 根 的 帧 到 由 的 移动 
足够 小 ,经 过 较 少 的 重复 运算 之 后 , 即 可 使 新 的 根 值 会 聚 在 一 起 。 当 求 根 过 程 刚 开始 的 时 
候 ,第 一 帧 的 最 初 猜 测 值 可 以 在 单位 圆 上 等 间 隅 放置 。 

如 果 在 某 个 点 zx; 是 一 个 根 ,那么 与 i 对 应 的 共振 峰 频率 和 三 分 贝 带 宽 分 别 由 下 面 公式 
给 出 : 


四 
F, = 和 生 量 请 
B, = ln | x | 二 


和 
其 中 ,T,==1/f;。 例 如 ,车 求 出 一 个 根 位 于 二 一 0. 1 十 j0.95, 则 | zx; | 一 0.955,0 一 1. 466。 若 
语音 的 采样 频率 为 8KkKHz, 则 共振 峰 频 率 为 F; 一 1866Hz, 三 分 贝 带宽 B; 二 117Hz。 因 为 极点 
是 以 共 恩 对 形式 出 现 的 ,所 以 只 需要 对 虚 部 为 正 的 极点 进行 考察 就 可 以 。 大 B; 为 负 值 , 则 
相应 的 极点 位 于 单位 圆 外 。 这 时 对 B; 的 修正 ,通常 可 以 用 1/z; 代替 =;, 即 可 将 极点 反射 到 
单位 圆 内 ,显然 这 样 做 并 不 影响 B; 的 绝对 值 。 
对 于 实时 堵 首 处 理 来 说 ,多 项 式 求 根 的 计算 开销 通常 是 很 大 的 ,一般 不 可 取 。 但 这 种 方 
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法 可 以 用 于 实验 研究。 

2) 选 峰 法 

由 预测 需 系 数 获 得 共振 峰 数 据 的 另 一 个 途径 是 计算 出 语音 信和 叶 的 频谱 包 络 ,然后 通过 
对 频 详 包 络 中 局 部 极 大 值 进行 搜索 找 出 共振 峰 。 显 然 选 峰 法 比 求 根 法 容易 实现 。 选 峰 法 的 
主要 缺点 是 对 共振 峰 合 并 现象 无 能 为 力 , 对 于 共振 峰 合 并 来 说 ,两 个 相 邻 共振 峰 的 极点 紧 紧 
地 靠 在 一 起 ,从 而 频谱 包 络 只 呈现 出 一 个 局 部 极 大 值 ,而 不 是 两 个 极 大 值 。 于 是 峰值 检测 需 
认为 在 此 处 只 存在 一 个 共振 峰 , 当 将 峰值 同 共 振 峰 对 号 人 座 时 便 会 引起 一 系列 的 混乱 。 

解决 共振 峰 合并 问题 最 有 效 的 方法 是 减少 从 极点 到 计算 频谱 包 络 曲线 的 距离 。 显 然 ， 
如 果 极 点 位 于 单位 圆 内 ,并 通过 在 单位 圆 与 极点 之 间 的 曲线 上 对 函数 求 值 ,那么 所 得 到 的 频 
谱 包 络 也 就 不 大 可 能 出 现 共 振 峰 合并 。 原 则 上 说 ,只 要 用 于 了 苑 数 求 值 的 曲线 和 极点 相距 足 
够 近 , 那 么 任何 共振 峰 合 并 问题 部 可 以 解决 。 

利用 频谱 包 络 中 局 部 极 大 值 进 行 搜 索 寻 找 共振 峰 , 会 将 谐 波 峰值 误 识 为 共振 峰 。 下 面 
介绍 一 种 利用 谐 波 频率 及 其 上 下 两 个 次 极 值 频率 求 得 共振 峰 频 率 的 方法 。 

设 激 励 频率 为 Fu , 则 语音 信号 的 频谱 将 出 现 多 个 谐 波 频率 f= 二 nF ,它们 的 位 置 是 频谱 
曲线 的 各 峰值 处 。 图 3-34 表示 如 何 从 谐 波 频 率 求 得 共振 峰 频 率 的 两 种 内 插 关 系 , 即 可 由 谐 
波 频 率 f 及 其 上 下 两 个 次 极 值 频 率 f 十 F。、f 一 Fo 的 插值 来 求 得 共振 峰 频 率 ， 

i (3-130) 
其 中 ,Af 是 谐 波 频率 与 共振 峰 频 率 之 差 。 


图 3-34 共振 峰 频 率 与 谐 波 频率 之 间 的 关系 


具体 内 插 时 的 几何 关系 如 图 3-35 所 示 。 


人 = 全 Bi (3-131) 
因此 有 
和 (3-132) 
2d 
即 可 以 得 到 两 种 内 插 可 能 的 共振 峰 频 率 . 
FS- f+ 全 (3-133) 


共振 峰 幅 值 Lr 与 谐 波 频率 时 幅 值 L; 之 差 是 AL, 则 由 图 3-35 的 几何 关系 及 式 (3-133) 可 
以 得 到 di/F。=AL/Af, 因 此 有 
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图 3-35 ”计算 共振 峰 频 率 的 图 解 


AL = ":; Ls=L;42 (3-134) 


而 共振 峰 带宽 如 图 3-35 中 的 di 用 分 贝 表示 ,由 于 | ]/3 一 必 , 故 共振 峰 王 分 贝 带宽 可 以 
表示 为 
Bs = 6F,0/adi (3-135) 

2. 倒 谱 法 

从 前 面 的 同 态 分 析 可 以 知道 ,由 于 声 道 啊 应 的 倒 谱 衰减 很 快 ,在 [一 25,25j 之 外 的 值 已 
经 相当 小 ,因此 可 以 构造 一 个 相应 的 倒 谐 滤波 天 ,将 声息 的 倒 谱 分 离 。 对 分 离 出 来 的 倒 谱 做 
相应 的 反 变 换 , 灰 可 以 得 到 再 违 商 数 的 对 数 详 , 对 此 做 进一步 处 理 即 可 求 得 所 需 的 各 个 共振 
峰 。 需 要 注意 ,实际 分 析 中 的 声音 信号 是 一 段 加 窗 的 短 时 声音 。 未 加 窗 的 语音 信号 x(n) 等 
于 激励 信号 e(n) 和 声 违 啊 应 v(n) 的 着 积 。 而 加 窗 信 号 xs(n) 可 以 表示 为 zw(2) 一 [Le(2) x 
v(n) jw(n), 式 中 ww(n) 为 某 种 窗 函 数 。 可 以 从 频 域 或 时 域 角度 估计 加 窗 对 同 态 分 析 的 
影 啊 。 

由 于 zx, (720) 等 于 2) 和 wln) 的 乘积 ,x,(n) 的 频谱 等 于 (2) 的 频谱 与 wn) 的 频谱 的 
卷 积 ,由 此 引入 的 畸变 主要 来 自立 (2) 频 谐 的 主办 宽 度 不 够 罕 和 主 瘀 以 外 的 波纹 造成 的 泄漏 
现象 。 为 了 殉 服 后 者 , 窗 鲜 数 一 般 选 为 汉 明 窗 , 而 很 少 用 方 窗 。 对 于 前 者 , 当 语 首 帆 的 长 度 
为 20ms 左右 时 ,所 引入 的 畸变 不 是 很 大 ,因此 可 以 接受 。 

从 时 域 角 度 ,zz 可 以 写成 

x 《ny 一 | bs v(n)e(n 一 D lwo (3-136) 


考虑 到 vw(2) 是 声 道 图 数 的 单位 取样 啊 应 ,是 因果 订 列 ,所 以 对 持续 时 间 也 有 限制 。 因 此 
(2) 的 非 去 间 陋 可 以 表示 为 L0,m | , 式 中 丈 是 一 个 与 诸 音 短 时 帆 的 点 数 相 比 小 得 多 的 正 整 
数 。 再 假设 w(n) 的 变化 在 L0,nij 范 围 内 ,因此 当 1EL0,nj] 时 wln) 完 wl(n)。 这 样 ,语音 信 
写 可 用 下 面 公式 近似 表示 。 


Xw(n) = | > uC)e(n D lu 一 > (VCD etn — Dw(n))} 


i=0 ‘二 0 
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a > (veD {etn— Dwtn— DI (3-137) 
[= 站 
设 ey, (nn) 二 el(n)w(n) ,就 可 以 得 到 
,nn) 2 jv (Dew ln 一 人 = vn) Xn) (3-138) 
1=0 


这 样 ,对 加 窗 语 首 进 行 同 态 分 析 , 并 采用 倒 谱 滤波 疑 分离, 就 可 以 得 到 wvw(n) 和 es,(n)。 从 而 
可 以 由 此 确定 共振 峰 及 其 声 道 和 激励 参数 。 在 此 讨论 中 所 做 的 重要 假设 是 w(n) 必 须 变 化 
比较 缓慢 。 汉 明 窗 的 变化 缓慢 ,而 方 窗 的 变化 剧烈 ,从 这 一 角度 出 发 也 应 该 选择 前 者 ,这 与 
在 频 域 的 讨论 结果 一 致 。 
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CHAPTER 4 


参数 模型 法 是 现代 谱 佑 计 的 主要 内 容 , 经 稼 采用 的 模型 有 三 种 : 四 目 回 归 (auto-regressive) 
模型 ,简称 AR 模型 , 它 是 一 个 全 极点 的 模型 ; 外 移 动 平 均 (moving-average) 模 型 ,简称 MA 
模型 , 它 是 一 个 全 和 零 点 模型; 急 目 回归 -移动 平均 模型 ,向 称 ARMA 和 模型, 它 是 一 个 既 有 和 夫 
点 又 有 极点 的 模型 。 

从 效 宇 信号 处 理 的 知识 可 以 知道 ,AR 模型 易 反 映 频 谱 中 的 峰值 ,MA 模型 易 反 映 频 详 
中 的 谷 值 ,而 ARMA 模型 可 以 同时 反映 两 者 。 考 上 不 到 求解 AR 模型 的 正则 方程 (normal 
equation) 是 一 组 线性 方程 ,而 求解 MA 和 ARMA 模型 的 方程 是 非 线 性 方程 ,因此 ,在 实际 
处 理 中 ,应 用 比较 广泛 的 是 AR 模型 。 更 由 于 AR 模型 可 以 与 基于 级 联 无 损 声 管 的 语音 
生 模 型 相 联系 ,因此 在 语音 处 理 中 它 是 被 广泛 采用 的 模型 ; 而 与 其 相关 的 线性 预测 (linear 
prediction) 分 析 也 是 声音 信号 处 理 中 普 遇 采用 的 核心 技术 之 一 

根据 数字 信号 处 理 中 的 知识 ,一 个 p 阶 的 AR 模型 总 是 等 效 于 一 个 p 阶 的 线性 预测 
合 。 因 此 ,目前 提出 的 有 关 AR 模型 系数 的 求解 ,以 及 AR 模型 性 能 的 讨论 大 部 是 建立 在 线 
性 预测 理论 基础 上 的 。 对 语音 信号 进行 线性 预测 分 析 的 基本 思想 是 : 一 个 语音 的 采样 能 够 
用 过 去 寿 干 个 语音 采样 的 线性 组 合 来 通 近 。 通 过 使 线性 预测 到 的 采样 在 最 小 均 方 误差 意义 
上 通 近 实际 语音 采样 ,可 以 求 取 一 组 唯一 的 预测 系 效 。 这 里 的 预测 系数 就 是 线性 组 合 中 所 
用 的 加 权 系 数 。 这 种 线性 预测 分 析 最 早 是 用 于 语音 编码 中 ,因此 也 人 简称 为 LPC (linear 


prediction coding) 。 
4.1 线性 预测 的 基本 原理 


根据 参数 模型 功率 谱 佑 计 的 思想 ,可 以 将 霹 音信 号 zn) 看 作 是 由 一 个 输入 厅 列 wu(n) 
激励 一 个 全 极点 的 系统 (模型 ) 昌 (xz) 而 产生 的 输出 ,如 图 4-1 i 
所 示 。 

系统 的 传递 函数 为 图 4-1 语音 信号 的 模型 化 

H(z)=— 2 (4-1) 
| pe 
一 ] 

其 中 ,G 为 常数 ; a; 为 实数 ; p 为 模型 的 阶 数 。 显 而 易 见 ,这 种 模型 是 以 系数 a; 和 增益 G 为 
模型 参数 的 全 极点 模型 , 即 AR 模型 。 

用 系数 {a;} 可 以 定义 一 个 pp 阶 线性 预测 兹 : 
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声 
F(z) = >》 aiz 一 (4-2) 
i 一 1 
这 个 p 阶 预 测 问 从 时 域 角度 可 以 理解 为 ,用 信号 的 前 p 个 样本 来 预测 当前 的 样本 得 到 
预测 值 X (n) , 即 
p 
(Nn) = > air 一- 志 (4-3) 
i 二 1] 


因为 预测 硕 F(z) 是 用 AR 模型 的 系数 (a;} 来 构造 的 ,而 AR 模型 是 在 最 小 均 方 意义 上 对 数 
据 的 拟 合 ,所 以 预测 器 F(z) 必然 是 一 个 最 佳 预 测 絮 , 即 此 时 预测 器 的 预测 误差 短 时 总 能 量 
最 小 。 

语音 信号 的 线性 预测 分 析 就 是 根据 这 一 性 质 , 从 语音 信号 zCz) 出 发 ,依据 最 小 均 方 误 
差 准 则 ,估计 出 一 组 线性 预测 如 的 系数 (a;} , 它 就 是 所 要 求 的 信号 AR 模型 的 系数 。{a;} 称 
为 线性 预测 系数 或 LPC 系数 。 

预测 天 的 预测 误差 e(n) 为 


p 
一 二 一 一 Yair tn —1) (4-4) 


1 


由 上 式 可 知 ,e(n) 是 输入 为 x(n)， 日 具有 如 下 形式 传递 单 盯 数 的 滤波 希 的 输出 
A(z) 一 1 一 上 (zc) 一 1】 一 da- (4-5) 
因此 称 A(z) 为 预测 误差 滤波 如 。 比 较 式 (4-1) 和 式 (4-5) 可 知 A(z) 二 G/ 昌 (z), 即 预测 误差 
滤波 器 是 系统 瓦 (z) 的 道 滤波 器 。 
为 了 在 最 小 均 方 误差 意义 上 计算 一 组 最 佳 预 测 系 数 , 定 义 短 时 预测 均 方 误差 为 


p 2 
| De (n) 一 2 [zn) — TX(n) | = De 一 > ai (7 一 | (4-6) 


i 一 1 


由 于 语音 信号 的 时 变 特 性 ,线性 预测 分 析 应 该 在 短 时 的 语音 段 上 进行 , 即 按 帧 进行 。 因 此 上 
式 的 求 和 通 稼 也 是 在 一 帧 语音 的 范围 内 进行 。 
使 式 (4-6) 中 的 EE, 达到 最 小 ,1a 必须 满 足 9E,/9as 二 0,(k 二 1,2,…,p)。 考 虑 式 (4-6), 有 


We pe Denier C4-7) 
这 样 可 以 得 到 以 {a;}) 为 变量 的 线性 方程 组 


Dr rn— Ek) 一 一 Se 2 7 (mn— kr(n—i)s 下 一 T 2 起 (4-8) 


一 


i hi.— > 二 1,2,…,p; i 二 0,1,2,…,p), 则 式 (4-8) 可 简 
写 为 


Ei 


Dat, i) = BE,0), k=1,2,.…,p (4-9) 


式 (4-9) 是 一 个 由 个 方程 组 成 的 有 个 未 知 数 的 线性 方程 组 ,求解 方程 组 就 可 得 到 线性 


预测 系数 的 估计 值 Y ,4,,…,&,。 同 样 也 可 以 求 得 最 小 预测 误差 能 量 的 值 E, ,利用 式 (4-6) 
和 式 (4-8) 有 


p 


诅 = Yr? 0n) 一 >z (nx(n— 1) (4-10) 
入 fi 一 i 
或 写成 
p 
E, = ®,(0,0) 一 > dB(0,2) (4-11) 
一 ] 


E, 又 被 称 为 预测 残 差 能 量 ,由 式 (4-11) 可 见 , 它 由 一 个 固定 分 量 和 一 个 依赖 于 预测 系 
数 的 分 量 组 成 。 
要 构造 信号 的 AR 模型 ,还 应 估算 增益 因子 G。 将 式 (4-1) 转 化 成 差分 方程 的 形式 .: 
pp» 


rn) = Yair(n—k)+Guln) (4-12) 


i 三 1 


由 式 (4-3) 和 式 (4-12) 计 算 预 测 误差 e(z) 和 残 差 能 量 E,: 
e(n) 一 > [zn) 一 元 (zz)] = >》 Gu ln) 


E, = G2 > ,u’ (Cn) (4-13) 


激励 信号 un) 无 法 准确 计算 ,但 根据 前 文 所 述 的 语音 产生 模型 ,在 浊音 情况 下 ,激励 可 
以 看 作 是 准 周 期 的 脉冲 串 ; 在 清音 时 ,可 以 看 作为 高 斯 白 噪声 。 因 此 式 (4-13) 中 的 输入 信 
号 总 能 量 可 以 认为 近似 为 1, 这 样 估算 增益 因子 G 一 忌 ? 。 虽 然 这 种 计算 只 是 一 种 近似 的 方法 ， 
但 却 很 实用 ,尤其 是 当 模型 的 假定 很 好 地 符合 语音 产生 模型 时 ,这 种 估算 能 得 到 很 好 的 效果 。 

为 了 使 模型 的 假定 能 够 很 好 地 符合 语音 产生 的 模型 ,需要 考虑 如 下 两 个 因素 。 

1. 模型 阶 数 p 的 选择 

阶 数 p 应 与 共振 峰 的 个 数 相 吻 合 , 通 常 一 对 极点 对 应 一 个 共振 峰 , 因 此 当 共 振 峰 数 为 5 
时 ,应 取 p= 二 10。 此 外 当 语 音 为 鼻音 和 摩擦 音 时 , 声 道 传 递 函 数 并 不 符合 全 极点 模型 的 假 
定 , 而 是 一 个 既 有 极点 又 有 零点 的 模型 ,但 由 于 可 以 用 多 个 极点 来 近似 一 个 零点 ,所 以 仍然 
可 以 采用 全 极点 模型 的 假定 ,但 要 求 有 足够 高 的 阶 数 。 考 虑 到 这 些 情况 ,一般 按 如 下 的 方式 
计算 模型 阶 数 p= 二 2D 十 1, 其 中 D 为 共振 峰 的 个 数 。 

2. 通过 预 加 重 进行 高 频 提 升 

由 于 声 门 脉冲 形状 和 口唇 辐射 的 影响 ,语音 信号 的 频谱 在 总 趋势 上 会 产生 高 频 衰落 的 
现象 ,大 约 每 倍 程 下 降 6dB。 要 抵消 这 一 影响 ,通常 在 LPC 分 析 之 前 采用 一 个 非常 简单 的 
- 阶 FIR 滤波 器 进行 预 加 重 以 进行 高 频 提 升 ,其 传递 函数 为 1 一 wx-!: ,其 中 w 为 预 加 重 系 
数 , 对 10kHz 采样 的 语音 ,一 般 取 a 二 0. 95。 

线性 预测 分 析 是 在 短 时 平稳 这 一 现实 的 假定 基础 上 进行 的 , 即 一 段 语音 信号 是 各 态 历 
经 的 平稳 随机 过 程 。 线 性 预测 分 析 被 普遍 应 用 到 语音 处 理 的 各 个 方面 ,大 量 的 实践 证 明 . 
LPC 参数 是 反映 语音 信号 特征 的 良好 参数 。 


4.2 线性 预测 方程 组 的 解法 


式 (4-9) 给 出 了 以 线性 预测 系数 为 变量 的 线性 方程 组 。 欲 解 线 性 方程 组 , 痛 先 必须 计 
算 下 (Ri ,4. 1 节 中 BC(k,i) 被 定义 为 
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D(E,1) -一 > (7 一 有 ) 垃 (7 一 站， 下 一 1 1 一 日 


这 是 一 个 比较 模糊 的 定义 , 式 中 的 求 和 范围 并 没有 具体 化 。 因 此 当 采 用 不 同 的 计算 方法 
时 ,就 会 存在 不 同 的 线性 预测 解法 。 本 节 首先 介绍 两 种 经 典 的 解法 : 自 相 关 法 和 协 方差 法 ， 
在 这 两 种 方法 中 ,其 方程 组 系数 矩阵 {BCk, 丫 } 都 具有 特殊 的 性 质 ,可 以 用 高 效 的 算法 来 计 
iim gies -种 避 开 自 相关 和 协 方差 计算 ,直接 由 样本 递 推 的 线性 预测 解 
法 : 格 型 法 。 最 后 ,对 上 述 这 三 种 线性 预测 分 析 方 法 的 性 能 进行 比较 。 


4.2.1 自 相 关 法 


定义 nn 的 求 和 范围 的 一 种 较 直 接 的 方法 是 ,认为 语音 段 外 的 数据 全 为 零 ,只 计算 范围 
以 内 (0 过 ?过 N) 的 语音 数据 ,这 相当 于 先 将 声音 加 窒 ,然后 再 进行 处 理 。 此 时 到 CR,z) 可 以 
表示 为 


N—1+p 


Dk,1) = 站 人 


或 者 
的 一 1 一 (天 一 起 


D(Ek,1) = Pp Xu (nr 《7 十 天 一 2) ， 上 一 ] ps 一 心 * 27 让 (4-15) 


其 中 ,x (nn) 为 加 窗 后 的 请 首 数据 ，。 

由 于 假定 窗外 的 声音 数据 为 去, 显然 存在 着 误差 。 为 了 减少 这 种 误差 的 影响 ,在 线性 预 
测 分 析 中 ,一 般 不 采用 突变 的 矩形 窗 ,而 使 用 两 端 具 有 平滑 过 渡 特 性 的 窗 孙 数 , 如 Hamming 
窗 。 从 3.2.3 节 的 知识 可 以 知道 ,加 窗 处 理 后 的 自 相 关 函 数 可 以 表示 为 如 下 形式 : 

KK,(k) = 了 ee (4-16) 
其 中 ,R,(k) 为 短 时 自 相 关 函 数 , 它 仍然 保留 了 自 相 关 函 数 的 特性 , 即 满 足 偶 函 数 的 特性 ,有 
R.( 一 &) 一 R.(E) ,同时 R, (一 引 仅 与 上 ,i 的 相对 值 上 有关 ,而 与 ,i 的 绝对 值 无 关 等 。 从 
式 (4-15) 和 式 (4-16) 可 知 ,@B(k,i) 可 以 表示 为 
BE,i) = Rk—i) = Rk—mi|), k=1,2,.,p; i=0,1,2,.%…,p (4-17) 
于 是 方程 组 (4-9) 就 可 以 转换 成 如 下 形式 : 


而 
SR(UE i Dt = k= 1 -i 的 
i 二 ] 
这 就 是 自 相 关 方 程 组 ,将 其 转换 成 矩阵 形式 : 
R, (0) RI) R, (2) 2 Rp—1) 1 RS 
R, (1) R, (0) R,(1)  … R,(p—2) ||é, R, (2) 
ey Rrly R.(0) ~ R.(p—3)||a4, |= | R,.(3) | (4-19) 


dt RD Rh R (0) ; R,(p) 
这 种 方程 为 Yule-Walker 方程 , 它 的 系数 矩阵 , 即 自 相 关 和 矩阵 是 一 个 pXp 阶 的 对 称 阵 ,是 
沿 着 主 对 角 线 及 任何 一 条 与 主 对 角 线 平行 的 斜 线 上 的 所 有 元 素 都 相等 ,这 种 和 矩阵 称 为 托 布 
里 效 (Toeplitz) 和 矩阵 。 对 于 这 种 具有 托 布 里 兹 和 矩阵 的 方程 组 可 用 特殊 的 递 推算 法 来 求解 。 
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其 指导 思想 为 : 第 i 阶 方程 组 的 解 可 以 用 第 i 一 1 阶 方程 组 的 解 来 表示 ,第 i 一 1 阶 方程 组 的 
解 又 可 以 用 第 i 一 2 阶 方程 组 的 解 来 表示 , 依 此 类 推 。 因 此 只 要 解 出 一 阶 方程 的 解 ,就 可 以 
- 步 一 步 地 递 推 来 解 出 任意 阶 方程 组 的 解 。 用 自 相关 法 求解 线性 预测 系数 的 递 推算 法 有 好 
几 种 ,本 节 介 绍 两 种 典型 的 方法 ; 莱 文 逊 一 杜 定 (Levinson-Durbin) 递 推算 法 和 和 舒 尔 (Schur) 

1. 莱 文 池 一 杜 宾 着 弟 推 算法 

该 算法 过 程 如 下 : 

(1) 计算 目 相 关系 数 R.(j),j 二 0,1,*…,p。 

(2) E'” =R,(0). 

(3) i 二 1。 

(4) 开始 按 如 下 公式 进行 递 推 运算 : 


下 四 一 Sa PDR,(i—)) 


= i (4-20) 
es = k, (4-21) 
a 3 人 人 和 7 = ] ,…… ,1 TT ] (4-22) 
io (4-23) 
(5) i 二 1 十 1]。 奢 i 一 2 则 算法 结束 退出 ,否则 返回 第 (4) 步 , 按 式 (4-20) 到 式 (4-23) 进 行 


注意 上 面 各 式 中 括号 内 的 上 标 表示 的 是 预测 需 的 阶 数 。a?2 表示 第 i 阶 预测 融 的 第 j 
个 预测 系数 ,EE 为 第 i 阶 预测 名 的 预测 残 差 能 量 ,这 样 经 过 递 推 计算 后 ,可 得 到 ;一 1,2,…， 
p 各 阶 预 测 旨 的 解 。 实 际 上 只 需要 第 p 阶 的 运算 结果 ,最 终 解 为 
FF (4-24) 
和 
EY = RoOTTG 一 有 2) (4-25) 


由 于 各 阶 预 i 测 器 的 预测 残 差 能 量 E 中 都 是 非 负 的 因此 由 式 (4-23) 可 以 推 知 参数 必 
定 酒 足 
1 和 一 工区 (4-26) 
上 且 E? 必 随 预 测 器 阶 数 的 增加 而 减少 。 参 数 , 称 为 反射 系数 ,也 称 PARCOR 系数 。|&k | 三 1 
这 个 条 件 十 分 重要 。 可 以 证 明 , 它 是 保证 系统 五 (z) 稳 定 的 条 件 , 也 就 是 H(z) 的 根 在 单位 
圆 内 的 充分 必要 和 条件。 
2. 舒 尔 递 推算 法 
定义 归 一 化 的 上 月 相关 图 效 如 下 : 
“RR 4 一 (4-27) 
对 式 (4-18) 左 右 两 侧 都 除 以 R,(0), 可 将 方程 中 的 日 相关 函数 部 转化 为 其 归 一 化 形式 。 由 
于 有 R, (7) 三 R, (0), 因 此 归 一 化 目 相 关 录 数 永远 不 大 于 1, 因而 , 递 推 过 程 中 的 所 有 变量 都 
小 于 或 等 于 1。 这 一 特性 特别 适合 采用 定点 运算 的 场合 ,对 算法 的 便 件 实 现 很 有 利 。 
递 推 过 程 中 设 一 辅助 友 列 g;”: 
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g® = k— ji [入 。 j=—p~p,i=0,1,,p (4-28) 


可 以 证 明 ,qg;” 有 如 下 性 质 ， 
(1) 当 守 0 时 :9 和 一 和 人) 一 一 让 一 疡 。 
(2) 反射 系数 久 一 和 ed 
CY 递 推 式 Ro (i—1) . — kig 全 i 
(4) |g;( 站 | 达 r,(0) ,其 中 等 号 仅 当 i==j==0 时 成 立 。 
和 舒 尔 递 推算 法 描述 如 下 : 
(1) 计算 目 相关 系数 民 ,(7) ,7 一 一 户 一 由。 
(2) 计算 归 一 化 目 相关 系数 x 0) 二 R,(j)/R,(0),j 二 一 p~p。 
各 二 be gg 和 一 六 01) (=—p~p); E'"=1., 
(4) 今 ;一 1 
(5) Wi i 一 pp 夺 全 pp 计算 : 
ye a (4-29) 
Ed (4-30) 
(6) i 二 i 十 1 。 硅 i 二 pp 则 算法 结束 退出 ,否则 返回 第 (5) 步 。 
最 终 得 到 的 {R)} 是 相应 的 反射 系数 。 本 算法 可 以 专门 用 来 求 反射 系数 ,这 时 参与 运算 
的 初 值 .中 间 值 和 最 终 值 都 小 于 等 于 1。 eye 式 (4-22) 和 
式 (4-23) ,可 以 同步 求 出 线性 预测 系数 {aj*” ,二 1,…,p)) 和 预测 残 差 能 量 E'? 


4.2:2” 协 万 于 法 


前 面 介 绍 的 基于 月 相关 求解 线性 预测 系数 的 方法 ,首先 对 语音 信号 进行 加 窗 处 理 , 假 定 
窗外 的 语音 样本 点 全 为 零 ,这 种 不 尽 合 理 的 假定 使 得 月 相关 法 的 分 辩 率 降低 ,数据 越 短 , 分 
辨 率 越 不 好 。 用 协 方差 法 求解 线性 预测 系数 ,不 需要 对 语 首 信号 进行 加 窗 人 处理。 调整 
式 (4-14) 中 的 求 和 范围 ,B(k,i) 重 新 定义 如 下 .: 


N—1 


中 (R,z) 一 Srln—k)rn—i), Eo= lym ps io—0 lm sp (4-31) 


设 (n 一 引 二 m, 则 此 式 可 以 表示 为 


N—i—1 
D(k.,1) = > zlm+ (2 一 天 JE ， k 1 1 一 EY We (4-32) 


m= 一 # 


可 以 看 出 ,此 处 的 BC(k, 引 与 前 面目 相关 法 中 式 (4-16) 的 B(k,?) 显 然 不 同 ,这 里 B(k, 引 不 仪 
取决 于 & 和 fi 的 差 值 ,而 且 取 决 于 i 值 本 结 。 这 样 ,BB(k, 引 就 不 再 是 日 相关 哨 数 ,人 它 非常 类 
似 于 第 3 童 中 介绍 的 修正 目 相 关 函 数 。 虽 然 仍 有 BC(k,i) 二 BB(i,k), 但 是 不 能 满足 
BD(i 二 1,k 十 1) 二 B(i,k)。 这 柱 可 将 方程 组 (4-9) 写 成 如 下 和 矩阵 形式 ， 


BOIY BY BY oe BW | 下 本 0 
D2,1) D2,2) B23) … B22,p) || as B(2.,0) 
(351) B32) 33) we B32) | 人 |= | ®3.0) (4-33) 


Os 
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此 方程 组 的 系数 定 阵 不 册 是 一 个 托 布 里 效 和 矩阵 ,虽然 它 仍 是 对 称 阵 ,但 主 对 角 线 和 各 个 
副 对 角 线 上 的 元 系 并 不 相等 。 这 种 线性 方程 组 也 有 多 种 解法 ,其 中 最 稍 用 的 解法 是 乔 里 斯 
基 (Choleskey) 分 解法 ,其 基本 思想 是 将 系数 矩阵 采用 请 元 法 化 成 主 对 角 线 元 系 为 1 的 上 三 


4.2.3 格 型 法 


无 论 是 日 相关 法 还 是 协 方 差 法 ,它们 必 分 成 两 步 , 即 先 计算 日 相关 窒 阵 , 青 解 一 组 线性 
方程 。 这 两 种 线性 预测 算法 各 有 其 优 上 缺点 : 目 相 关 法 能 保证 系统 的 稳定 性 ,但 由 于 它 使 用 
了 窗 函 数 来 截取 ,对 语 首 信 号 进行 了 人 为 的 截断 ,从 而 引入 了 误差 , 守 致 其 计算 精度 不 局 ; 
而 协 方 差 法 由 于 不 及 用 窗口 痕 数 ,了 所 以 精度 口 , 但 它 不 如 有 目 相 关 法 稳定 ,也 没有 用 于 求解 的 
高 效 递 推算 法 。20 世纪 70 年 代 , 日 本 学 者 Itakura 在 分 析 自 相关 的 基础 上 ,引入 了 “ 正 向 预 
测 ” 和 “反问 预测 ”的 概念 ,阐述 了 参数 ;的 物理 意义 ,前 先 提出 了 刻 滤 沾 A(z) 的 格 型 结构 
形式 ,由 此 给 出 了 线性 预测 分 析 的 格 型 法 。 格 型 法 不 需要 用 窗口 图 数 对 信号 进行 加 权 , 同 时 
又 保证 了 解 的 稳定 性 , 较 好 地 解决 了 精度 和 稳定 性 的 让 慎 。 特 别 是 由 于 引入 了 正 回 预测 和 
反 回 预测 的 概念 ,使 运用 均 方 误差 最 小 通 近 准则 更 加 灵活 ,由 此 派生 出 了 一 系列 基于 格 型 结 
构 的 线性 预测 算法 。 

1. 格 型 法 的 基本 原理 

自 先 引入 正 辣 预测 和 反 疝 预测 的 概念 。 在 基于 日 相 关 的 羔 文 进 一 杜 星 逆 推 工法 中 , 当 
递 推进 行 到 第 i 阶 时 ,可 得 到 该 阶 预测 系数 a)? (二 1,2,…, 让 ,因而 可 以 定义 一 个 i 阶 的 线 
性 预测 误差 滤波 天, 它 的 传输 函数 A”(z) 定 义 如 下 : 


AGOD(z) 一 1 一 > az (4-34) 
j 一 ] 
这 个 滤波 大 的 输入 傅 导 是 Xx(n) ,输出 信号 为 预测 误差 e (2 ,它们 之 间 的 关系 为 
en) = rm 一 Pyar(n—m)) (4-35) 
j=] 
EVIrz) — R(teIAT(z) (4-36) 
利用 递 推 式 (4-21) 和 式 (4-22) ,将 其 代入 到 式 (4-34), 有 

AD(z) = ATD (2) — heiA TD (1) (4-37) 


将 其 代入 式 (4-36), 即 可 得 到 
一 

= 一 (4-38) 
其 中 

A (4-39) 
式 (4-38) 表 明 ,第 i 阶 线性 预测 误差 滤波 颖 的 输出 e*”(n) 可 以 分 解 成 两 部 分 ,第 一 部 分 是 第 
i 一 1 阶 滤波 副 的 输出 e* "(nn); 第 二 部 分 是 与 第 ;一 1 阶 有 关 的 输出 信号 6” “(nn) 经 过 单 
位 移 序 和 k&; 加 权 后 的 信号 。 将 这 两 部 分 信号 分 别 定义 为 正 问 预 测 误差 信号 e”(n) 和 反问 
预测 误差 信号 6”(n)。 其 中 ,e*”(n) 的 计算 公式 如 式 (4-35) 所 示 ,8”(n) 可 以 写成 如 下 
形式 : 


104 者 || 语音 信号 处 理 (第 3 版 ) 


{tn = {tn 一 3 ~ > az(7 一 ?十 力 (4-40) 
j=1 
正 问 预测 误差 信号 e” (nn) 就 是 通常 意义 上 的 线性 预测 误差 , 它 是 用 i 个 过 去 的 样本 值 
工 (Nn 一 1) ,Xn 一 2),… ,Xn 一 7) 来 预测 zx) 时 的 误差 。 而 反问 预测 误差 6? (nm) 可 以 看 作 是 
用 时 间 上 延迟 时 刻 的 样本 值 (nn 一 i 十 ,xXGn 一 i 十 2) ,zz(2) 来 预测 Xn 一 让 时 的 误差 ， 
这 两 种 预测 情况 如 图 4-2 所 示 。 


及 癌 了 预测 
X(Nn—i+2) 
x(n—it1) 二 
X(77 一 1 Se x(n—1) 


EY x(n—2) x(n) 


正 癌 预 测 
图 4-2 用 i 阶 预 测 右 作 前 癌 后 回 预 测 示意 图 


在 建立 了 正 回 预测 和 反 回 预测 的 概念 后 ,就 可 以 推出 线性 预测 分 析 采 用 的 格 型 滤波 天 
结构 。 对 于 正 向 预测 ,将 式 (4-38) 进 行 反 变换 ,可 得 到 如 下 的 递 推 公 式 : 
en) =e Vn)— ko (一 1) (4-41) 
同 理 将 式 (4-37) 代 入 式 (4-39) 中 ,得 
有 
一 
一 
= 
并 作 反 变换 ,可 以 得 到 如 下 求 反 癌 预 测 误差 5”(n) 的 递 推 公式 : 


b?(n) = bv nm 1)— ke''v(n) (4-42) 
根据 式 (4-35) 和 式 (4-40), 当 i 二 0 时 有 
一 (4-43) 
而 当 i 二 p 时 ,有 
em (nm) = en) (4-44) 


其 中 ,e() 为 2 阶 线性 预测 误差 滤波 融 所 输出 的 预测 误差 信号 。 根 据 加 推 式 (4-41) 和 
式 (4-42) ,以 及 初 值 条 件 式 (4-43), 可 以 村 出 适合 于 线性 预测 分 析 的 格 型 滤波 副 的 结构 
形式 如 图 4-3 所 示 。 


el)(n) et! \(n) ec\(n) et '(n) eM(n)=e(n) 


pV(n) pn) br ln) 
图 4-3 格 型 分 析 滤 波 器 结构 


第 4 章 ， 语 音信 号 的 线性 预测 分 析 | 和 e 105 


这 个 滤波 需 输 入 为 zx(n) ,输出 为 预测 误差 e(n), 它 对 应 4. 1 节 中 所 描述 的 预测 误差 滤 
波 关 A(Cz)。 另 一 方面 ,图 4-1 语 音信 号 模型 化 框图 中 的 合成 滤波 需 互 (=) 也 可 以 用 格 型 结 
构 来 实现 。 如 果 将 模型 中 的 增益 因子 G 考虑 到 和 输入 信和 叶 中 , 则 该 滤波 需 的 输入 是 Gu(n)， 
那么 此 时 五 (=) 就 应 该 是 预测 误 善 滤波 关 A(z) 的 逆 滤 波 帮 ,输入 信号 Gu(n) 也 可 以 由 e(n) 
来 通 近 ,因此 合成 滤波 器 囊 (=) 的 输入 为 e(Cz) 时 ,输出 应 为 zx(Cz)。 整 理 递 推 式 (4-41) 和 
式 (4-42) ,可 以 得 到 如 下 的 递 推 基 系 式 : 
eV(n) = e? (n)+ko (2 一 1) z 
| Oo : | (4-45) 
b(n) = 6 ?nm 1)— ke' Tr (n) 

这 样 可 根据 此 递 推 关系 式 画 出 图 4-4 所 示 的 格 型 合成 滤波 器 的 结构 。 


epn)=e(n) err ll(n) etl(n) 


误差 


eV(n) 


bn) bn) 
图 4-4 ” 格 型 合成 滤波 大 结构 


由 图 4-3 和 图 4-4 可 见 ,p 阶 滤波 更 可 以 表示 成 由 pp 节 和 斜 格 构成 ,尤其 是 合成 滤波 需 的 
结构 直接 与 第 2 章 讨论 的 声 道 的 级 联 声 管 模型 相对 应 。 在 声 管 模型 中 , 声 道 被 模拟 成 一 系 
列 长 度 和 截面 积 不 等 的 无 损 声 管 的 级 联 , 而 在 这 里 ,可 以 认为 每 一 个 格 型 网 络 就 相当 于 一 小 
段 声 管 段 。 滤 波 副 结构 中 关键 的 参数 是 反 喘 系数 (i 一 1,2,…,p), 它 反映 了 第 i 节 格 型 网 
络 处 的 反射 ,与 声波 在 各 声 管 段 边界 处 的 反射 量 相对 应 。 

2. 格 型 法 的 求解 

根据 图 4-3 所 示 的 格 型 分 析 滤 波 右 的 结构 形式 ,可 以 依据 最 小 误差 准则 , 求 出 各 反映 系 
数 ;。 如 果 需 要 还 可 以 更 进一步 由 式 (4-21) 和 式 (4-22) 计 算出 预测 系数 a;。 由 于 在 格 型 滤 
波 右 中 有 正和 疝 预测 误差 和 反 向 预测 误差 两 种 误差 数据 ,因而 在 求解 反射 系数 时 可 以 依照 几 
种 不 同 的 最 优 准 则 来 进行 ,由 此 出 现 了 多 种 格 型 法 的 求解 算法 。 下 面 将 介绍 几 种 和 党 用 的 算 
法 。 首 先 定义 三 种 均 方 误差 : 


正 回 均 方 误差 FE?(n) = El(e™ (n)Y | (4-46) 
反问 均 方 误差 B®?) = EL 0 (4-47) 
太 叉 均 方 误差 Cn) = Ele®? (no™ (no—1)| (4-48) 


1) 正 问 格 型 法 

正 癌 格 型 法 的 通 近 准则 : 使 格 型 滤波 兹 的 第 7 市 正 同 均 方 误差 最 小 , 即 令 
9E™ Cay 
~ 

a tm) Fle™ (mo "(no 1)| 

BV (nm 1) E[ (bi (n— 1)):] 
其 中 ,好 的 上 标 f 表示 这 个 反 射 系数 是 用 正 问 误差 最 小 准则 求 得 的 , 它 等 于 正 反 问 预 测 误 
差 的 互相 关 和 反 回 预测 误差 能 量 之 比 。 在 实际 运算 时 总 是 用 时 间 平 均 代 特集 平均 ,为 了 提 


RY (4-49) 
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高 精度 ,可 以 像 协 方差 法 中 一 样 不 用 加 窗 的 方法 来 限制 信号 xz) 的 长 度 范围 , 则 上 式 变 为 
村、 3 
Ei 站 _. 


MN—1 
2 Lon — DT 


其 中 ,假定 e (和 上 2 "(nn) 的 长 度 范围 为 0 夺 n 夺 NN 一 1。 
2) 反问 格 型 法 
色 问 格 型 法 的 通 近 准则 是 : 使 格 型 滤波 颖 的 第 ii 太 有 反 回 均 方 误差 最 小 , 即 令 
DB (n) 
ok, 


。 1 一 1 2 7 直 (4-50) 


0 


由 此 可 得 
i 
| To El te™ {myy? | 
其 中 ,的 上 标 5 表示 这 个 反 味 系数 是 由 反问 误差 最 小 准则 求 得 的 , 它 等 于 正 反 癌 预 测 误差 的 
互相 关 和 正 问 预测 误差 能 量 之 比 。 注 意 到 E33(n) 和 B"*?(n) 的 值 都 是 非 傣 的 ,所 以 kf 和 
符号 总 是 相同 的 。 在 正 癌 格 型 法 和 反问 格 型 法 中 ,由 于 不 能 保证 | CY? 了 (x)| 二 | BY Gn)| 
和 |C (过 | 天 (2 所 以 它们 都 不 能 保证 | 六 | 过 1, 也 就 是 说 解 的 稳定 性 是 不 能 保 
证 的 。 
3) 几何 平均 格 型 法 
定义 正 回 格 型 法 和 反问 格 型 法 中 &{ 和 有 的 几何 平均 值 如 下 : 
kl = S VEIR (4-52) 
这 是 导出 的 反射 系数 计算 公式 ,好 和 分 别 为 用 正 向 格 型 法 和 反 向 格 型 法 计算 得 到 的 反射 
系数 ,S 为 kf 的 符号 。 将 式 (4-49) 和 式 (4-51) 代 入 式 (4-52), 可 得 
Ele (Mb "(no— 1)| 


ks (4-51) 


本 (4-53) 
/下 | Ce {ny [EL v(m — 1 | 
或 者 以 时 间 平 均 的 形式 表示 : 
MN—1】 
> eV nb no 1) 
i (4-54) 
N—1 N—1 
> Le 和 | Ba 一 1) | 


这 个 表达 式 具 有 归 一 化 互相 关 函 数 的 形式 ,由 于 它 表 示 了 正 问 预测 误差 和 反问 预测 误 
差 之 则 的 相关 程度 ,因此 反射 系数 也 被 称 为 部 分 相关 系数 ,简写 为 PARCOR 系数 。 运 用 柯 
西 一 施 瓦 兹 不 等 式 容 易 证 明 有 | 已 | 过 1, 所 以 这 种 方法 求解 的 反射 系数 将 能 保证 系统 的 
4) 伯 格 (Burg) 法 
伯 格 法 的 逼近 准则 : 使 格 型 滤波 器 第 ii 节 正 向 和 反 向 均 方 误差 之 和 最 小 , 即 令 
LE™ TG) BG) 0 
DR; 


由 此 可 以 得 到 
2 


本 
EY (nn)++B' "no 1) 


(4-55) 
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N—1 
> [e™™* (no 《天 一 1] 
本 一 二 一 (4-56) 
[ay Bk Pom yy 


这 里 k? 的 上 标 B 表示 此 结果 是 按 伯 格 法 求 出 的 。 同 样 根据 柯 西 一 施 瓦 效 不 等 式 可 以 证 明 
|&r| 硅 1, 所 以 这 种 方法 也 能 保证 系统 稳定 。 
伯 格 法 递 推 算法 实现 过 程 如 下 : 
(1) 设 定 初 值 
本 
(2) i=]1; 
(3) 计算 反射 系数 忆 和 预测 系数 a;” 和 as”, 即 


NM 一] 
9 ?3 | 
有 一 = 
> Pm (n) | 时 bp [oD i 1) 


I 
和 
(4) 计算 eo2(27) 和 22 (2) , 即 
区 
人 
(5) i 二 i 十 1, 阁 i 二 p 则 返回 第 (3) 步 ,否则 结束 。 


4.2.4 几 种 求解 线性 预测 万 法 的 比较 


前 面 介绍 了 一 些 典 型 的 求解 线性 预测 方程 组 的 方法 。 这 些 方法 各 有 特点 。 目 相关 法 必 
须 对 语音 信号 进行 加 窗 人 处 理 , 规 定 了 信号 的 长 度 范 围 , 假 定 窗外 的 语音 样本 值 为 零 , 所 以 自 
相关 法 误差 较 大 ,计算 结果 精度 最 差 。 从 理论 上 来 讲 , 上 日 相关 法 能 够 保证 系统 的 稳定 性 , 即 
保证 预测 多 项 式 的 根 在 单位 圆 内 。 但 是 在 实际 计算 时 ,由 于 有 限 字 长 的 影响 , 自 相 关 郴 数 计 
算 精 度 不 够 ,会 造成 病态 的 上 月 相关 和 矩阵 ,从 而 系统 的 稳定 性 得 不 到 保证 。 人 研究 表明 ,如 果 对 
语音 信号 先进 行 预 加 重 , 使 得 它 的 谱 尽 可 能 平滑 , 则 可 以 使 这 种 有 限 字 长 的 影响 减 至 最 低 程 
度 。 协 方差 法 因 不 需要 加 窗 , 所 给 出 的 参数 估 值 要 比 自 相 关 法 精确 得 多 ,同时 也 优 于 格 型 法 
的 精度 ,但 协 方 差 法 不 如 上 月 相关 法 稳定 ,虽然 在 算法 中 ,可 以 用 判 根 和 最 小 相位 化 的 方法 来 
纠正 极点 位 置 ,但 终究 是 件 很 及 烦 的 事 。 另 外 , 乔 里 斯 基 分 解法 因 没 有 快速 算法 ,也 需要 较 
大 的 计算 量 才能 实现 。 在 实际 应 用 中 , 当 N 和 pp 很 接近 时 ,和 目 相 关 法 的 误差 非常 大 , 协 方差 
法 误差 小 的 优势 就 非常 明显 。 但 是 在 大 部 分 应 用 中 很 容易 满足 N 今 p, 这 时 协 方 差 法 误差 
小 的 优点 就 不 再 突出 ,而 目 相 关 法 具有 高 将 违 推算 法 的 优势 就 非常 明显 。 因 此 在 语音 信号 
处 理 中 ,和 目 相关 法 比 协 方差 法 用 得 多 。 从 信号 特性 的 角度 来 看 , 目 相 关 法 适用 于 平稳 信号 ， 
而 协 方差 法 适用 于 非 平 稳 信 号 。 

格 型 法 无 需 加 窗 ,也 不 需要 计算 月 相关 和 矩阵 ,可 直接 通过 语音 样本 递 推 得 到 预测 关系 
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数 。 它 的 计算 结果 精度 很 高 ,对 系统 的 稳定 性 也 有 保证 ,同时 避免 了 前 两 种 算法 的 缺陷 ,是 
-种 很 好 的 线性 预测 求解 方法 。 但 是 格 型 法 求解 时 , 先 计算 co (xz) 和 4 (nm) ,然后 才能 求 得 
反射 系数 {} 和 预测 系数 {a;) ,计算 过 程 中 多 次 调用 相同 的 语音 样本 ,所 以 运算 量 很 大 ,大 
致 为 自 相 关 法 或 协 方差 法 的 4 倍 以 上 。 为 了 减少 运算 量 ,也 有 人 在 格 型 法 上 进行 改进 ,提出 
了 协 方差 格 型 法 ,将 计算 量 恢复 到 了 自 相关 法 的 水 平 上 。 因 此 , 格 型 法 是 一 种 很 有 生命 力 的 
线性 预测 算法 


4.3 ”线性 预测 的 几 种 推演 参数 


线性 预测 分 析 法 求 得 的 是 一 个 全 极点 模型 的 传递 函数 ,在 语 首 产生 模型 中 ,这 一 全 极点 
模型 与 声 着 滤波 各 的 假定 相符 合 ,而 形式 上 是 一 递归 滤波 和 大。 一 个 递归 数字 滤波 从 可 以 有 
多 种 实现 结构 ,如 直接 法 .链接 法 和 格 型 法 等 ,相应 地 就 有 多 种 不 同 的 滤波 器 参数 ,而 它们 所 
实现 的 滤波 器 都 是 等 价 的 。 因 此 用 全 极点 模型 所 表征 的 声 道 滤波 需 , 也 应 该 有 除 预测 系数 
ta 外 ,其 他 不 同形 式 的 滤波 硕 人 参数。 这些 参数 一 般 可 由 线性 预测 系数 推演 得 到 ,但 各 有 不 
同 的 物理 意义 和 特性 。 在 对 语音 信号 做 进一步 处 理 以 达到 各 种 应 用 目的 时 ,往往 按照 这 些 
特性 来 选择 某 种 合适 的 参数 来 指 述 语音 信号 。 本 市 介绍 七 种 推演 参数 ,此 外 还 有 一 种 称 为 
线 谱 对 的 参数 , 因 涉 及 的 问题 较 多 放 在 下 一 蔬 介 绍 。 事 实 上 这 些 推演 参数 只 要 求 出 一 种 ,就 
可 以 推导 出 其 他 几 种 。 


4.3.1 归 一 化 目 相 关 闻 数 


此 参数 的 物理 意义 已 经 在 前 文中 讨论 过 了 ,这 里 不 再 效 述 ,只 给 出 计算 公式 。 归 一 化 的 
自 相 关 畏 数 为 
R, (7 ) 


RC0) (4-57) 


r(7) 一 


其 中 ,R,()) 为 日 相关 函数 ,表示 为 
nN—i—1 


R,(j) = R,—) = 2 zolm zr (m) 


其 中 ,zx,(m) 为 加 窗 后 的 语 首 信号 。 


4.3.2 反映 系数 


在 第 2 曹 讨 论 声 道 的 级 联 声 管 模 型 中 , 声 道 被 模拟 成 一 系列 长 度 和 截面 积 不 等 的 无 损 
声 管 的 级 联 , 反 射 系 数 {R 反映 了 声波 在 各 声 管 段 边界 处 的 反射 量 , 有 
i 
”Ain 二 A 
其 中 ,A; 是 第 i 节 声 管 的 面积 函数 。 男 外 , 它 也 表示 了 正 问 预测 误差 和 反问 预测 误差 之 间 的 
相关 程度 。 反 射 系数 {&;) 在 低速 率 语 音 编 码 .语音 合成 .语音 识别 和 说 话 人 识别 等 许多 领域 
中 都 是 非常 重要 的 特征 参数 。 如 上 文 所 述 , 通 过 莱 文 逊 一 杆 宾 算 法 、 舒 尔 算 法 和 伯 格 算法 都 
可 以 直接 得 到 反射 系数 。 寿 已 知 线性 预测 系数 {(w ,也 可 以 用 来 求 取 反 射 系数 {k;)。 
由 式 (4-21) 和 式 (4-22) ,可 以 推导 出 下 列 各 式 : 


(4-58) 
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人 ss (i—1) 四 (i—]1» 一 一 画面 十 es 
Aj 一 一 aj 一 Re * 1s "1 ] 

站 。 ， 
一 
k, = Rig 


因而 可 以 进一步 推导 出 下 式 : 
一 
即 若 已 知 线性 预测 系数 te;) ,可 以 用 如 下 递 推 关系 求 反射 系数 { 尼 ): 
0 
= 
人 一 
是 从 一 访 开 始 , 回 递减 的 方 问 乏 级 递 推 。 反 过 来 , 右 已 知 反 射 系数 司 上) 用 以 下 递 推 天 系 
可 以 求 相应 的 线性 预测 系数 (a;}: 


Me 
(Ci) (i—1) Ci—1) . 
Ci 一 a; 一 机 了 了 人 1 ,io— 1 


它 从 ;二 1 开始 , 同 递 增 的 方向 逐 级 递 推 , 而 最 终 有 aj 二 ay? ,(j 王 1,2,*…,p)。 
反射 系数 的 取信 范围 为 (一 1,1), 这 也 是 保证 相应 的 系统 困 数 稳定 的 充分 必要 条 件 。 


4.3.3 预测 器 多 项 式 的 根 


LPC 分 析 是 估计 语音 信号 功率 谱 的 一 种 有 效 方 法 。 如 果 把 合成 滤波 需 看 作 是 一 个 p 
阶 AR 模型 ,那么 就 有 
| H(w) | =| XCo) | (4-59) 
其 中 , 玉 (w) 是 合成 滤波 器 电 (z) 的 频率 响应 ; X(o) 是 语音 信 : I 即 信号 谱 。 
然而 ,语音 信号 并 非 是 PP 阶 AR 过 程 , 因 此 五 (wo) 只 能 看 作 是 对 信号 谱 的 一 个 估计 。 
通过 求 取 预 测 硕 多 项 趟 的 根 , 可 以 实现 对 共振 上 峰 的 估计。 at 汪 A4A(Cz) 可 以 用 
它 的 一 组 根 4=; ,1 到 ;过 加 等 效 地 表示 , 即 


A(z) = 二 1 Sa” = [1 — zz !) (4-60) 
i 二 ] 


厂 使 A(z) 二 0, 则 可 以 解 出 pp 个 根 zi ,zs,…,z,。 硅 pp 为 偶数 ,那么 一 般 情况 下 得 到 的 是 
p/2 对 复 根 ,可 以 表示 为 

zi wy ld (4-61) 
每 一 对 根 与 信号 谱 中 的 一 个 共振 峰 相对 应 。 如 果 把 Z 平面 的 根 转换 到 S 平面 , 令 x 二 ex7， 
其 中 工 为 采样 间 阳 。 设 Si 二 oi 十 jf2;, 则 有 


(和 = 于 aretan| 汪 (4-62) 
| < kr 
mm 一 log(z 十 鸡 ) (4-63) 


0, 决定 了 共振 峰 的 频率 ,o, 决定 了 共振 峰 的 带宽 。 
4.3.4 LPC 倒 谱 
根据 第 3 章 的 内 容 , 语 音信 号 的 倒 谱 可 以 通过 对 信号 做 傅 里 时 变换 , 取 模 的 对 数 , 再 求 
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反 傅 里 叶 变 换 得 到 。 由 于 频率 响应 瓦 (w) 反 映 声 道 的 频率 啊 应 和 被 分 析 信 号 的 谱 包 络 , 因 
此 用 log| 五 (o)| 做 反 傅 里 叶 变 换 求 出 的 LPC 倒 谱 系数 ,也 可 以 认为 包含 了 信号 谱 的 包 络 信 
妨 , 可 以 将 其 看 作 是 对 原始 信号 短 时 倒 谱 的 一 种 近似 。 


通过 线性 预测 分 析 得 到 的 合成 滤波 器 的 系统 函数 为 电 (z) = 一 一 一 一 ,其 冲 激 响 应 


为 h(n) ,下 面 求 h(n) 的 倒 谱 h(n) ,首先 根据 同 态 处 理 方 法 ,有 
H(z) = logH(z) (4-64) 
因为 H(z) 是 最 小 相位 的 , 即 在 单位 圆 内 是 解析 的 ,所 以 广 (z) 一 定 可 以 展开 成 级 数 形式 , 妈 


H(z) = > h(n)z™ (4-65) 
就 是 说 及 (xz) 的 逆 变 换 h(n) 是 存在 的 , 设 h(0) 二 0, 将 上 式 两 边 同 时 对 z-! 求 导 , 得 
9 9 人 z 
天 1- 过 员 lew cg) 
] 一 QZ | 
得 到 
p 
Dnh ne 一 (4-67) 
了 ] 一 Dn 
站 一 
有 
p Si p 
1- Da | Dahoe™ 一 a (4-68) 
i 玫 一 1 i 二 1 
过 式 (4-68) 可 得 到 有 h(n) 和 a; 间 的 递 推 关系 为 
LY 一 而 
A 0 +3 (Ey pel. 1 而 圭 测 ei 
p 
h(n) = [1 一 于 ke Pe 2 
| 


按 式 (4-69) 可 直接 从 预测 系数 {a;} 求 得 倒 谱 h(n)。 这 个 倒 谱 是 根据 线性 预测 模型 得 到 
; 义 称 为 LPC 倒 谱 。LPC eg A head sat tnd 首 系 统 函 数 瓦 (z) 的 最 小 相位 特 
时 ， 导 倪 了 一 般 同 态 处 理 中 求 复 对 数 的 朵 烦 。 


4.3.5 全 极点 系统 的 冲 激 响应 及 其 目 相 关子 数 


LPC 算法 求解 一 个 全 极点 模型 古 (=) 来 通 近 每 一 帧 语音 的 实际 声 道 图 数 。 它 的 单位 冲 
油 啊 应 有 (nn) 可 以 由 下 式 确定 : 
h(n)=0, n=0 
p (4-70) 
h(n) = Yaih nC—i) 十 (ns 下 


i 二 1 
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h(n) 的 自 相 关 函 数 及 GD) 可 以 由 下 式 求 出 : 
R;,(7) = KR;(— 7) = Se j= 1,2,",p (4-71) 
容易 证 明 R; (j) 满 足下 列 方程 组 : | 
R= pd iI = 1 (4-72) 
和 1 


当 {a;) 为 已 知 时 , 则 可 由 这 组 方程 解 出 个 未 知 数 Ri(j),j 二 1,2,…,p。 肥 过 来 也 可 
以 由 这 组 日 相关 加 数 求 出 线性 预测 系数 (a;}。 


4.3.6 预测 误差 滤波 器 的 种 激 响 应 及 其 目 相 关 关 数 
预测 误差 滤波 器 的 传递 函数 为 
hp 
其 单位 冲 激 响应 为 


1 下 ”一 一 () 
p 
a(n) = 0(n) 一 Da On 一 (4-73) 
0， 其 他 
a(72) 的 上 月 相关 图 数 为 
RQ) = analtnt)); j= 1,2;"",p CE 


条 一 心 


4.3.7 ”对 数 面积 比 系 数 


由 反射 系数 1R 可 以 直接 推导 出 一 组 重要 参数 一 一 对 效 面 积 比 系数 ,其 定义 为 
Ei ll lid gp (4-75) 
其 中 ,A; 就 是 多 节 无 损 声 管 中 第 i 市 的 截面 积 。 根 据 式 (4-58), 将 其 变换 后 代入 式 (4-75)， 
就 可 得 到 下 接 通 过 反射 系数 求 取 对 数 面积 比 系数 的 关系 式 : 


BE 一 LT Bs = LD (4-76) 
同 理 , 通 过 反 变 换 也 可 以 和 直接 由 g; 求 &,: 
kk; 一 (1 一 es)/(1 十 ea)， 这 一 | (4-77) 


对 数 面 积 比 系 数 g; 相对 于 谱 的 变化 的 灵敏 度 比 较 平 绥 , 因 而 特别 适 于 量化 。 

4.4 线 谱 对 分 析 法 

线 谱 对 参数 (line spectrum pair, LSP) 也 是 线性 预测 系数 的 一 种 推演 参数 。LSP 参数 
具有 非常 好 的 量化 特性 和 插值 特性 ,因而 在 声 码 需 研 究 中 获得 广泛 的 应 用 。 

4.4.1 线 谱 对 分 析 的 原理 

设 z 阶 线性 预测 硕 的 逆 滤 波 大 为 


1 
2 (之 ) = 1 一 SF ami 1 一 Loeweesg 
站 
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将 反 喘 系 数 到 线性 预测 系数 的 北 推 公式 (4-21) 代 入 上 式 可 以 得 到 
AT(z) = ATT(z) — Ee AV (zz) 
设 p 阶 线 性 预测 逆 滤 波 器 为 A(z), 即 A(z)= 二 A(z), 定 义 两 个 (p 十 1) 阶 的 多 项 式 : 


Plz} oo— Atz) Te Al ) (4-78) 

Q(z) = A(Z) — we "Al!) (4-79) 

显然 ,P(z) 相 当 于 上 41 二 一 1 时 的 AW? Cz), 而 Q(z) 相 当 于 41 二 1 时 的 A%™?(z), 而 且 
不 难看 出 : 

A(z) = LP(z) + Q(z) |/2 (4-80) 

将 式 (4-78) 和 式 (4-79) 中 的 A(z) 和 z+?A(z7 1!) 分 别 写 成 如 下 形式 、 
A = 1—we —dre — ne? (4-81) 
aA) (4-82) 


则 式 (4-78) 和 式 (4-79) 可 以 写成 
一 
NL (8 

可 见 P(Cz) 是 一 个 对 称 的 实 系数 多 项 式 , 而 Q(z) 是 一 个 反对 称 的 实 系 数 多 项 式 ,因此 它们 都 

有 共 罗 的 复 根 。 从 式 (4-83) 和 式 (4-84) 还 可 以 看 出 ,它们 分 别 有 值 为 土 1 的 实 根 , 即 

Pl | i oo=Ds Wil s=0 (4-85) 

可 以 证 明 : 当 A(z) 的 和 零点 都 在 单位 加 内 时 , P(xz) 和 Q(z) 的 零点 部 在 单位 加 上 ,并 且 

P(z) 和 Q(z) 零点 随 w 的 增加 而 交替 出 现 , 即 


9 (4-86) 
其 中 ,w; 和 9; 分别 为 P(z) 和 Q(z) 的 第 i 个 符 太 。 于 是 P(z) 和 Q(z) 可 分 别 瑟 成 如 下 因 式 
分 解 形 式 ， 

p/2 

P(z) = (1 +z1)|| a — 2coswz ! 十 之 <) (4-87) 
i 二 1] 
p/2 

Mz 一 zailke 人 (4-88) 


参数 w; .0; 成 对 地 出 现 , 且 反映 信号 的 频谱 特性 ,因此 称 为 线 谱 对 系数 。 我 们 知道 ,线性 预测 
分 析 中 的 声 道 滤波 融 昌 (z) 二 G/A(z) 的 频率 啊 应 的 幅度 ,基本 上 反映 的 是 被 分 析 信 号 的 频 
谱 包 绍 。 由 式 (4-80), 式 (4-87) 和 式 (4-88) 在 单位 加 上 取 值 ,可 以 求 得 

| Hl(w) |= G/ | A(w) |= 2G/ | P(w) + Q(w) | 


pi2 p/2 
— "2G/ | si (w/2) [| (cosw — cos0. )’ 十 cos (w/2) [| (coOsw 一 coOsw. )* | 
t=] | 


(4-89) 

从 上 式 可 以 看 出 , 当 w 接近 于 0 或 6.(i 一 1,2,…,p/2) 时 ,上 式 中 括号 中 第 一 项 接近 于 零 ,而 

当 w 接近 于 zt 或 wi; (i 二 1,2,…,p/2) 时 ,上 式 中 括号 中 第 二 项 接近 于 和 零 。 一 般 每 对 和 零点 

(oi ,0;) 对 应 于 一 个 共振 峰 。 当 w; 和 0 很 靠近 时 ,第 ;个 共振 峰 就 很 尖锐 ,共振 峰 带 宽 就 很 

因此 ww 和 00 一 1,2,…,b/2) 就 是 保证 声 道 滤波 硕 瓦 (z=) 稳 定 的 充分 必要 和 条件 。 总 之 , 线 
谱 对 分 析 是 用 p 个 离 敬 频率 w; 和 0 的 分 布 密度 来 表示 语 首 信号 频 语 特性 的 一 种 方法 。 


4.4.2 线 谱 对 参数 的 求解 
求解 线 谱 对 参数 就 是 求解 多 项 式 P(z) 和 Q(z) 关 于 z 的 根 。 当 线性 预测 系数 {a;} 已 知 
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时 ,可 以 用 如 下 两 种 方法 来 求 LSP 参数 ， 
1. 代数 方程 式 求 根 
因为 
La 一 2z cosw; 二 2 ) = (2z )”。 [| [人 i cosw | 


m 
i=1 


令 (z 十 z 1)/2|,_j 二 cosw 二 yy; 可 以 通过 变换 使 P(z)/(1 十 z !1)= 二 0 和 Q(z)/(1 一 z !)= 二 0 
表示 成 关于 y 的 一 对 p/2 次 代数 方程 组 。 这 对 代数 方程 可 以 用 牛顿 迭代 法 求解 得 到 方程 


的 根 ,再 进一步 可 求 出 w, 和 0,。 
2. DFT 法 
;和 N) 各 点 的 值 ,搜索 极 小 值 点 


对 P(z) 和 Q(z) 的 系数 求 DFT, 得 到 z= 二 e- 演 (k= 二 0,1， 
的 位 置 ,也 就 是 可 能 的 零点 的 位 置 。 利 用 式 (4-86), 可 使 查找 零点 的 计算 量 大 大 减少 。 可 
谐 


以 证 实 ,N 值 取 64 一 128 就 能 够 满足 要 求 。 这 种 方法 和 下 接 得 到 线 谱 对 参数 的 编码 ,人 码 长 决 
定 于 NN 的 取 值 。DFT 法 是 一 种 很 实用 的 线 谱 对 参数 求解 方法 。 
4.5 感知 线性 预测 PLP 系数 
感知 线性 预测 (perceptual linear predictive, PLP) 技 术 , 是 将 人 和 耳 听 洁 试验 获得 的 一 些 
结论 ,通过 近似 计算 的 方法 进行 工程 化 的 处 理 , 之 后 应 用 到 频谱 分 析 中 。 经 过 这 样 处 理 后 的 


输入 语音 


目 回 归 模 型 求 线性 预测 系数 


二 
语音 频谱 考虑 到 了 人 和 耳 的 听 先 特点 ,因而 有 利于 语 首 信号 
理 。PLP 方法 的 过 程 可 用 图 4-5 来 表示 。 
下 面 介 绍 PLP 分 析 的 具体 过 程 。 
1. 频谱 分 析 
语音 信号 经 采样 .加 窗 、 离 获 傅 里 叶 变 换 后 , 取 短 时 语音 
频谱 的 实 部 和 虚 部 的 平方 和 ,得 到 短 时 功率 谱 , 即 
P(w) = Re X(w) | Iml XC(w) | (4-90) 
2. 临界 带 分 析 (critical-band spectral resolution) 
将 频谱 P(w) 的 频率 轴 w 上 映 喘 到 Bark 频率 Q, 有 
(ol) = 6ln{w/1200zx | (w/12007x)* 二 10} (4-91) 
按 临 界 市 曲线 对 0 进行 变换 ,得 


0 ， 0 一 一 1.3 
bt , ] . 3 -= 0 < 一 0 . 5 
WY Se 用 加 一 和 让 十 (4-92) 线性 预测 系数 
ii 
0， 站 人 5 PLP 语 首 分 析 方 框图 
FTCO2) 与 P(o) 的 离散 卷 积 将 产生 临界 市 功 座 谐 , 即 
(4-93) 


i 
0(0;) = > P(OQ— 0,)¥(0) 
人 = 二 一 1].3 
一 般 0(Q2) 按 每 个 Bark 加 隅 进行 采样 ,通过 选择 合适 的 采样 间 隅 可 以 保证 用 整数 的 采 
样 值 能 覆盖 整个 分 析 频 带 。 例 如 典型 的 使 用 0.994 Bark 间隔 ,用 202) 的 18 个 频谱 采样 覆 


盖 0 一 16.9 Bark(0 一 5kHz) 的 带宽 。 
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3. 等 响 度 预 加 重 (equal-loudness preemphasis) 
0LO(Co) | 按 模拟 等 啊 度 曲线 进行 预 加 重 , 即 
S| 0Q(w) | 一下 (wo)0LCCo) | (4-94) 
痕 数 E(w) 近似 地 反映 人 耳 对 不 同 频 率 的 不 同 敏感 性 , 旦 
E(w) = [Ce 二 56,8X 10) /Lo 6.3 X10°): x (wo0.,38 X10)] (4-95) 
4. 强度 一 响 度 转换 (intensity-loudness power law) 
在 进行 全 极点 模型 求 线 性 预测 系数 之 前 的 最 后 一 步 为 啊 度 幅 值 的 压缩 
TD) = EY ™ (4-96) 
这 一 步 是 近似 和 模拟 声音 的 强度 与 人 耳 感 党 的 啊 度 半 的 非 线 性 关系 。 
5. ` 全 极点 模 于 求 线性 预测 系数 
一 步 的 具体 过 程 为 本 章 第 4.2 市 的 内 容 。 
Pr PLP 的 处 理 过 程 可 以 看 出 ， par 
理 , 用 人 简化 的 模型 来 加 以 模拟 。 因 而 经 过 这 样 人 处 理 后 获得 的 频谱 更 符合 人 耳 的 听觉 特点 ,有 
利于 进行 语音 信号 人 处理。 a apves 
MFCC 特征 的 性 能 更 好 - pee pods 双 对 听 筑 的 各 种 特性 进行 了 相应 的 简 
化 ,但 其 各 个 计算 步骤 还 是 相当 复杂 ,运算 量 仍然 较 大 。 
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语音 编码 


CHAPTER 5 


语音 信号 的 数字 化 传输 一 直 是 通信 发 展 的 主要 方 癌 之 一 ,语音 的 数字 通信 与 模拟 通信 
相 比 ,无 疑 具 有 更 好 的 效率 和 性 能 ,这 主要 体现 在 : 山 具 有 更 好 的 话音 质量 ; 具有 更 强 的 
抗 干扰 性 ,并 易于 进行 加 密 ; 四 可 而 省 带宽 ,能 够 更 有 效 地 利用 网 络 资源 ; 中 更 加 易于 存储 
和 处 理 。 最 简单 的 数字 化 的 方法 是 直接 对 语音 信号 进行 模 / 数 转换 ,只 要 满足 一 定 的 采样 率 
和 量化 要 求 ,就 能 够 得 到 高 质量 的 数 罕 声音 。 但 这 时 语音 的 数据 量 仍 旧 非 党 大 ,因此 在 进行 
传输 和 存储 之 前 ,往往 要 对 其 进行 压缩 处 理 , 以 减少 其 传输 码 率 或 存储 量 , 即 进行 压缩 编码 。 
传输 但 率 也 称 为 数 但 率 或 编 但 速率 ,表示 为 传输 每 秒 钟 博 音 信号 所 需要 的 比特 数 。 语 音 纺 
码 的 目的 就 是 要 在 保证 语 首 首 计 和 可 异 度 的 条 件 下 , 米 用 尽 可 能 少 的 比特 数 来 表示 请 首 。 

早 在 20 世纪 30 年 代 末 期 ,语音 编码 技术 的 人 研究 已 经 开始 。 而 近年 来 ,在 数字 通信 领域 
实际 需求 的 踢 力 推动 下 , 随 着 计算 机 技术 的 高 速 发 展 ,声音 编码 技术 的 研究 获得 了 突 发 狐 进 
的 发 展 ,并 得 到 了 广泛 的 应 用 ,由 此 形成 了 比较 完善 的 理论 和 技术 体系 。 具 体 表 现 为 ,当今 
世界 上 存在 者 数量 众多 的 语 首 编码 的 国际 标准 和 地 区 性 标准 ,并 且 该 领域 也 成 为 国际 标准 
化 工作 中 最 为 活跃 的 研究 领域 。 

最 早 提出 的 语 首 编 公 标 准 是 数码 率 为 64Kbps 的 PCM 波形 编码 天 ,而 在 20 世纪 90 年 
代 中 期 出 现 了 很 多 被 广 沁 使 用 的 语音 编码 国际 标准 ,例如 : 数码 率 为 5. 3/6. 4Kbps 的 
G.723. 1 数码 率 为 8Kbps 的 G. 729 等 。 此 外 ,也 存在 着 各 种 未 形成 国际 标准 ,但 数码 率 更 
低 的 成 熟 的 编码 算法 ,有 的 算法 数码 率 甚 至 可 以 达到 1. 2Kbps 以 下 ,但 仍 能 提供 可 懂 的 
语音 。 

语音 编码 方式 有 很 多 种 划分 方法 。 从 数码 率 的 角度 可 以 将 场 音 编码 划分 成 五 大 类 : 高 
速率 (32Kbps 以 上 ) .中 高 速率 (16 一 32Kbps)、 中 速率 (4. 8 一 16Kbps)、 低 速率 (1. 2 一 
4. 8Kbps) 和 极 低 速率 (1. 2Kbps 以 下 ) 。 

从 采用 的 编码 方法 的 角度 还 可 以 分 为 三 类 : 波形 编码 ,参数 编码 和 混合 编码 。 波 形 编 
码 是 根据 语音 信号 的 波形 导出 相应 的 数字 编码 形式 ,其 目的 是 尽量 保持 波形 不 变 ,使 接收 端 
能 够 忠实 地 册 现 原始 语音 。 波 形 编码 具有 抗 噪 性 能 踢 .语音 质量 好 等 优点 ,但 需要 有 和 较 高 的 
数码 率 ,一 般 为 16 一 64Kbps。 参 数 编 码 又 称 为 声 码 硕 技 术 , 它 通过 对 语音 信号 进行 分 析 , 提 
取 参 数 来 对 参数 进行 编码 。 在 接收 端 能 够 用 解码 后 的 参数 重 构 声音 信号 ,参数 编码 主要 是 
从 听觉 感知 的 角度 注重 语音 的 重 现 , 即 让 解码 语音 听 起 来 与 输入 语音 是 相同 的 ,而 不 是 保证 
其 波形 相同 。 参 数 编码 一 般 对 数码 率 的 要 求 要 比 波形 编码 低 得 多 。 混 合 编码 是 上 述 两 种 方 
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法 的 有 机 结合 ,同时 从 两 个 方面 构造 语音 编码 ,一 方面 增加 语音 的 自然 度 ,提高 了 语音 质量 ， 
另 一 方面 相对 于 波形 编码 实现 较 低 的 数码 率 指标 。 

在 对 语音 信号 压缩 很 多 倍 后 仍 可 以 得 到 可 懂 的 语音 ,是 因为 语音 信号 中 存在 大 量 的 元 
余 信 息 ,而 语音 编码 就 是 利用 各 种 编码 技术 减少 语音 信号 的 了 元 余 度 。 此 外 语音 编码 中 也 充 
分 地 利用 了 人 和 耳 的 听觉 掩蔽 效 应 ,一 方面 去 除 将 会 被 掩蔽 的 语音 信号 , 实 现 数据 的 压缩 ; 为 

-方面 控制 量化 噪声 ,使 其 低 于 掩蔽 国 值 ,即使 在 较 低 数码 率 的 情况 下 ,也 能 获得 高 质量 的 

语音 。 

在 本 曹 中 ,5. 1 节 主 要 介绍 几 种 常用 的 波形 编码 算法 ; 5.2 节 介 绍 参 数 编 码 硕 和 混合 编 
码 器 ; 5. 3 节 介 绍 极 低 速率 语音 编码 技术 ; 在 5.4 节 中 对 语音 编码 器 的 性 能 指标 和 质量 评 
测 方 法 进行 讨论 ; 最 后 在 5. 5 节 中 对 语音 编码 国际 标准 的 情况 进行 介绍 。 


5.1 波形 编码 
5.1.1 均匀 量化 PCM 


最 直接 的 语音 数字 化 的 方法 是 对 其 进行 A/D 转换 ,包括 采 梓 和 量化 两 个 过 程 。 采 样 
时 ,采样 频率 要 高 于 信号 中 最 高 频率 的 两 们 ,以 避 亿 发 生 混 全 失真 。 因 此 一 般 情 况 下 在 
来 样 前 应 该 进行 抗 混 全 滤波 , 即 进 行 低 通 滤波 ,以 控制 信号 的 最 高 频率 。 量 化 时 将 采样 
得 到 的 样本 的 幅度 用 均匀 量化 的 方法 表示 成 二 进 制 数字 信号 ,相当 于 用 一 组 二 进 制 脉冲 
厅 列 表示 各 量化 后 采样 值 , 于 是 语 首 波形 信号 训 被 表示 成 一 组 用 数字 编码 的 脉冲 厅 列 。 
这 种 编码 方法 被 称 为 脉冲 编码 调制 (pulse coding modulation, PCM) ,其 编码 原理 如 图 5-1 
所 示 。 


A/D 和 转换 


模 
首 信 


图 5-] PCM 编码 原理 图 


量化 过 程 不 可 避免 地 会 产生 误差 ,量化 误差 e(n) 可 以 定义 为 
e(n) 一 工 (2) 一 工 (72) Co 1 
式 中 ,xX (n) 为 量化 后 的 信号 ,x(n) 为 量化 前 的 采 梯 信号 。 
量化 误 郑 也 被 称 为 量化 噪声 。 对 于 均匀 量化 希 来 说 ,量化 噪声 的 功率 仅 取决 于 量化 间 
隅 A, 而 与 输入 信号 的 功率 及 概率 分 布 无 关 。 如 公式 (3-3) 所 示 , 可 以 计算 出 当 B= 12 时 ， 
采样 频率 为 8gkHz 的 均匀 量化 硕 所 产生 的 数字 语音 的 信 了 噪 比 可 达 60dB, 基 本 上 可 以 满足 高 
质量 的 电话 通信 要 求 。 此 时 PCM 的 编码 速率 为 8kKHzxX12 一 96Kbps。 


5.1.2 非 均 勺 量化 PCM 


均匀 量化 PCM 编码 需 的 主要 问题 是 编码 速率 高 。 由 于 要 满足 一 定 信 了 品 比 的 要 求 , 所 
以 量化 间隔 就 不 能 太 大 ,而 当 语 音信 号 动态 变化 范围 较 大 时 ,为 了 防止 幅度 较 大 的 信号 因 超 
出 量化 范围 而 出 现 过 载 , 必 须 使 用 较 高 的 量化 比特 数 。 解 决 的 方法 是 ,依据 语音 信号 的 幅度 
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统计 分 布 特性 ,进行 非 均 久 量化。 在 语音 信号 中 ,样本 的 幅度 值 不 是 均匀 分 布 的 ,信号 大 量 
地 集中 在 小 幅度 值 上 。 如 果 对 小 幅度 样本 使 用 小 的 量化 间 隅 , 则 可 以 进行 精确 量化 ; 奇 对 
大 幅度 样本 使 用 大 的 量化 间 隅 , 则 既 可 成 功 地 提高 信 曲 比 , 又 可 避免 大 信号 的 过 载 。 均 匀 量 
化 和 非 均 习 量化 的 特性 如 图 5-2 所 示 。 


量化 输入 量化 输入 


(a) 均匀 量化 特性 (b) 非 均匀 量化 特性 
图 5-2 ”均匀 与 非 均 勺 量化 特性 


最 常用 的 非 均 匀 量 化 方法 是 对 数 压 扩 方法 。 编 码 时 ,利用 语音 信号 的 幅度 统计 特性 ,对 
幅度 按 对 数 变 换 进行 奈 绢 ,然后 再 进行 均匀 量化 。 解 三 时 , 则 进行 逆 癌 的 扩张 变换 。 在 实际 
使 用 中 有 各 种 不 同 的 变换 方法 ,如 jy 律 变 换 、A 律 变 换 等 。 

设 T(n) 为 说 首 波 形 的 采样 值 , 则 jy 律 压缩 定义 为 
y(n)= FPF, | zz) | 


HA=500 HA=100 


| zn) | x(n) | 


In|1+y 二 pg 
0) = i 


即将 输入 二 首 Xx(n) 压 缩 变 换 为 y(n) ,然后 再 进行 ”五 
匀 量 化 编码 。 式 中 ,Xx 是 x(n) 的 最 大 幅 值 ,y 

是 常数 ,用 于 调节 压缩 的 程度 ,y 越 大 其 压缩 程度 

越 高 。 当 y= 二 0 时 表示 不 进行 压缩 ,通常 jy 值 在 

100 一 500 之 间 取 值 。 图 5-3 给 出 了 不 同 jy 值 时 y 


一 汪 


0 42 04 06 08 1.0 输入 幅度 


律 的 压 扩 特性 曲线 。 图 5-3 jy 律 特性 的 输入 输出 关系 
A 律 的 压缩 方法 与 律 相 似 , 按 如 下 公式 进行 : 
全 eal [ | 人 | | 
Tn) = Ful ztny | 一 [FA 这 Ww 
i nA no] Fe | 0 ] a 1 | 
(5-3) 


目前 , 非 均 匀 量 化 的 PCM 编码 广泛 地 应 用 在 数字 电话 网 中 ,北美 和 日 本 主要 使 用 jy 律 
压缩 ,我 国 则 采用 A 律 压缩 。 


5.1.3 目 适 应 量化 PCM 


除了 上 文 介绍 的 非 均 匀 量 化 的 方法 外 ,还 可 以 通过 自 适 应 量化 的 方法 来 提高 信 咯 比 。 
由 于 语音 信号 的 特性 是 随时 间 变 化 的 ,能 量 时 大 时 小 ,因此 可 以 采用 目 适 应 的 方法 ,对 短 时 
能 量 比 较 大 的 信号 ,采用 比较 大 的 量化 间 隅 进行 量化 ,相反 的 ,对 短 时 能 量 比较 小 的 信号 ,可 
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以 采用 比较 小 的 量化 间隔 进行 量化 ,这 样 有 助 于 减少 量化 噪声 ,提高 量化 后 信号 的 信 噪 比 。 
这 种 方法 称 为 自 适应 量化 PCM(adaptive PCM,APCM) 。 它 的 量化 器 特性 随 着 输入 信和 号 短 
时 能 量 的 变化 而 和 目 适 应 地 变化 。 在 目 适 应 量化 大 中 ,除了 可 以 采用 量化 间 隅 作为 量化 需 的 
特性 外 ,还 可 以 采用 放大 增益 来 作为 量化 器 特性 ,实现 时 在 固定 量化 右前 加 一 个 目 适 应 的 增 
益 控 制 ,对 能 量 较 大 的 信号 采用 较 小 的 放大 增益 ,对 能 量 较 小 的 信号 ,采用 较 大 的 放大 增益 。 
可 以 看 出 ,这 种 自 适 应 改变 放大 增益 的 方法 ,与 目 适 应 的 改变 量化 间 隅 的 方法 是 等 效 的 。 显 
而 易 见 ,APCM 编码 器 除了 要 发 送 量 化 结果 外 ,还 需要 发 送 自 适应 调整 参数 作为 边 信息 ,使 
解码 端 能 获知 当前 采样 点 的 量化 硕 特 性 。 

可 以 根据 下 式 计 算 和 月 适应 参数 : 

A(n) 一 Ad(7) 

| (5-4) 

(Gn) = Go /on) 
A(n) 和 GC) 分 别 对 应 第 nn 个 采样 点 的 量化 间 阳 和 放大 增益 。 其 中 (nn) 为 输入 语音 信号 
的 方差 。 式 (5-4) 表 明 ,A(n) 正 比 于 输入 信号 方差 (mn) ,通常 认为 ,时 变 的 方差 o(n) 正 比 
于 信号 的 短 时 能 量 , 因 此 A(7) 也 就 正比 于 信号 的 短 时 能 量 。 而 GC(n) 反 比 于 信号 的 方差 和 
短 时 能 量 。 

APCM 的 上 自 适 应 方案 又 可 分 为 前 馈 自 适应 和 反馈 自 适应 两 种 。 玉 用 前 馈 自 适应 方案 ， 
A(n) 和 G(m) 是 由 输入 信号 本 和 号 估算 出 来 的 。 而 采用 反馈 有 目 适 应 方案 , 则 是 用 量化 旨 的 输 
出 来 估算 A(n) 和 G(n), 即 用 前 面 信号 的 情况 来 估算 后 面 信号 的 短 时 能 量 和 方差 。 因 此 ,前 
馈 自 适应 能 得 到 更 好 的 信 品 比 指标 ,但 需要 一 定 的 编码 延迟 ,而 反馈 自 适应 方案 不 需要 传输 
边 信 息 。 

采用 目 适 应 量化 后 可 以 提供 更 高 的 信 噪 比 ,一 般 可 以 得 到 约 4 一 6dB 的 编码 增益 。 


5.1.4 差分 脉 中 编码 


语音 编码 就 是 通过 减少 语音 信号 中 的 信息 元 余 度 来 实现 数据 压缩 ,这 种 元 余 度 的 最 直 
接 的 证 据 ,就 是 语音 采样 信号 之 间 具 有 很 蝇 的 相关 性 。 分 析 表 明 , 当 有 采样 频率 为 8kHz 时 ， 
相 邻 采样 值 之 间 的 自 相 关系 数 一 般 在 0.85 以 上 。 可 以 利用 这 种 相关 性 减 小 量化 字 长 ,从 而 
降低 编码 速率 。 由 于 相 邻 采样 值 之 间 的 差 值 还 小 于 采样 值 本 上身 ,因此 可 以 设计 一 种 编码 方 
法 ,对 差 值 进行 编码 ,而 不 是 对 采样 值 本 号 进行 编码 ,这 种 编码 方法 称 为 差分 脉冲 编 公 
(difference PCM ,DPCM)., 

产生 差分 信号 的 最 和 何 单 的 方法 是 耳 接 存储 前 一 次 的 采样 值 ,然后 用 本 次 米 样 值 去 计算 
差 值 ,经 量化 得 到 数字 语音 编码 。 解 码 端 则 做 相反 的 处 理 , 恢 复原 信和 号。 其 原理 如 图 5-4 所 
示 。 图 中 xz(n) 为 输入 语 首 ,dl(n) 为 差 值 信号 ,QL， 为 量化 硕 ,c(z) 为 声音 编码 ,过 (2) 为 解 


码 后 的 请 首 。 
用 2Z 变换 考察 各 点 信号 的 时 域 关 系 , 有 
Cz) = KX(z)(1 — x !) EC(z) (5-5) 
和 
i 人 


1—z 1—xz 


式 中 ,下 (=) 为 量化 硕 量 化 噪声 e(n) 的 Z 变换 ，。 
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n) EI= c(n) D x(n) 
+ 
el 


解码 可 


图 5-4 DPCM 原理 图 


由 式 (5-6) 可 以 看 出 ,量化 希 所 产生 的 量化 噪声 被 上 素 积 登 加 到 了 输出 信号 中 , 即 每 次 的 
量化 品 声 信号 都 被 记忆 下 来 ,然后 登 加 到 下 一 次 输出 中 。 如 有 果 量 化 噪声 始终 是 同一 方 问 , 则 
竹 出 信号 会 越 来 越 债 离 正 党 信 号。 为 了 解决 这 一 问题 ,编码 希 应 该 用 前 一 次 解码 后 的 米 样 
值 蔡 代 前 一 次 的 输入 采样 值 ,以 生成 差分 信号 。 如 图 5-5 所 示 , 编 色 冀 通过 反馈 的 方式 由 差 
分 编 公 重 构 生 成 前 一 次 的 采样 值 。 

x(n) 


一 | 


解码 共 


采用 如 岁 5-5 所 示 的 结构 后 , 香 一 个 采样 点 的 量化 噪声 信号 为 正 , 则 重 构 的 采样 值 
F(1) 必 将 大 于 2) ,在 下 一 个 时 刻 , 由 于 使 用 重 构 的 采样 值 来 计算 差分 ,使 差分 信号 变 小 
而 抵消 上 一 次 量化 只 声 的 有 影响。 从 Z 变换 的 角度 进行 分 析 会 得 到 同样 的 结论 ,从 图 可 知 


ye (5-7) 
外 一 这 
编码 结果 为 
C(z) = X(z) — X(z) + EC(z) (5-8) 
将 式 (5-7) 市 人 到 式 (5-8) 中 ,得 
C(z) = (X(z)E(z))(l1—2z!) (5-9) 
因此 有 
K(x) 一 i 一 XCz) + EG) (5-10) 


可 见 , 已 经 消除 了 量化 噪声 的 积累 。 

上 面 所 手 述 的 是 差分 脉冲 编码 的 一 种 简单 形式 , 它 仅 利用 两 个 相 邻 采样 仁之 间 的 相关 
性 。 实 际 上 ,当前 输入 的 采样 值 不 仅 与 上 一 时 刻 的 采样 值 相关 ,而且 也 与 前 面 奋 干 个 采样 值 
相关 ,充分 利用 这 些 相 关 性 无 疑 能 够 得 到 更 多 的 编码 增益 。 可 以 应 用 第 4 章 曾 详细 讨论 过 
的 线性 预测 分 析 的 方法 来 实现 一 般 形式 的 差分 脉冲 编码 。 根 据 线 性 预测 分 析 的 原理 ,可 以 
用 过 去 的 一 些 采 样 值 的 线性 组 合 来 预测 和 推断 当前 的 采样 值 , 得 到 一 组 线性 预测 系数 , 且 预 
测 所 带 来 的 误差 e(n) 的 动态 范围 和 平均 能 量 均 比 信号 x(n) 要 小 得 多 ,预测 阶 数 越 高 ,预测 
误差 就 越 小 ,相应 的 编码 速率 就 可 以 越 低 。 图 5-6 为 采用 线性 预测 的 DPCM 的 一 般 结 
构图 。 

图 5-6 中 P(xz) 为 线性 预测 多 项 式 ,a; 为 线性 预测 系数 ,p 为 预测 阶 数 。 有 
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解码 而 


图 5-6 DPCM 的 一 般 结 构图 


p 
P(z) = > /az™ (5-11) 


可 以 看 出 , 当 预 测 阶 数 为 1, 且 ai 二 1 时 ,就 得 到 前 文 所 述 简 单 形式 的 差分 脉冲 编码 颖 。 

差分 脉冲 编码 玉 用 差分 (预测 误差 ) 信 号 进行 编码 ,由 于 差分 信号 能 量 比 原 输入 信号 
量 要 小 得 多 ,因此 量化 限 幅 电 平 也 可 以 小 得 多 。 这 样 在 量化 电 平 数 不 变 的 条 件 下 ,差分 量化 
右 的 量化 间 隐 就 可 以 比 原 输入 信号 的 量化 间隔 小 ,从 而 减少 量化 噪声 。 因 此 差分 编码 的 信 
品 比 将 比 直接 对 原 信 号 编码 的 PCM 高 ,由 此 得 到 差分 增益 或 称 预 测 增益 ,其 值 等 于 原 信号 
能 量 和 差分 信号 能 量 之 比 。 

从 另 一 角度 来 讲 , 在 保持 信 噪 比 不 变 的 条 件 下 ,差分 编码 需 可 以 通过 减少 量化 字 长 , 即 
减少 量化 电 平 数 的 方法 来 降低 编码 速率 。 分 析 表 明 ,1 阶 预 测 DPCM 的 差分 增益 为 5dB ,可 
比 PCM 减少 1 比特 编码 长 度 , 即 编 码 速率 可 降低 到 56Kbps。3 阶 预 测 DPCM 能 减少 
1.5 一 2 比特 编码 长 度 ,编码 速率 可 降低 到 48Kbps。 


5.1.5 目 适 应 震 分 脉冲 编码 


1. 自 适 应 差分 脉冲 编码 的 原理 

差分 编码 需 的 编码 速率 能 降低 到 什么 程度 ,主要 取决 于 其 预测 精度 , 即 其 预测 误差 的 大 
小 。 上 方 所 述 的 DPCM 采用 的 是 固定 系数 的 线性 预测 希 , 从 第 4 草 的 内 容 可 知 , 由 于 请 首 
信号 的 不 平稳 性 ,显然 不 能 保证 其 总 是 最 佳 预测 器 ,从 而 使 预测 误差 最 小 。 比 较 好 的 方法 是 
在 编码 的 过 程 中 ,采用 自 适 应 技术 动态 地 调整 预测 器 系数 。 此 外 ,用 自 适应 量化 技术 对 差分 
信号 进行 量化 ,也 能 进一步 降低 编码 速率 。 一 般 将 采用 目 适 应 量化 及 高 阶 目 适应 预测 的 
DPCM 称 作 自 适 应 差分 脉冲 编码 (adaptive DPCM,ADPCM)， 

前 馈 型 ADPCM 的 编码 原理 如 图 5-7 所 示 , 与 图 5-6 相 比 较 可 知 , 系 统 的 核心 部 分 与 
DPCM 相同 ,但 P(z) 的 系数 受 月 适应 逻辑 控制 ,另外 增加 了 上 自 适 应 量化 的 功能 。 

从 图 5-7 可 知 , 当 上 月 适应 量化 采用 前 侍 目 适应 时 ,编码 硕 输 出 包括 3 类 信息 : 

(1) 预测 误差 信号 编码 码 字 c(n); 

(2) 预测 征 系 数 a;(n); 

(3) 量化 间隔 A(n) 或 者 增益 因子 GC(n)。 

如 果 自 适应 量化 采用 反馈 自 适 应 方法 ,编码 妖 就 不 必 传 送 A(nw) 和 G(n), 而 由 解码 端 根 
据 前 面 的 信号 估算 得 到 ， 

自 适应 线性 预测 以 帧 为 单位 进行 ,根据 本 帧 语音 波形 的 时 间 相 关 性 确定 预测 系数 ,使 预 
测 误差 信号 的 方差 最 小 。 可 以 采用 第 4 章 所 述 的 自 相 关 困 数 法 等 方法 求 取 线性 预测 系数 。 
月 适 应 线性 预测 又 可 以 分 为 前 癌 预 测 和 反 癌 预测 两 种 ,前 癌 预 测 采 用 当前 帆 的 采样 值 计算 
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量化 步 长 A(n) 
自 适 应 调整 


X(1) c(n) 


预测 目 适 应 ai 
岂 辑 


图 5-7 ADPCM 系统 编码 器 原理 图 


出 预测 带 系 数 , 人 然后 计算 当前 帆 的 预测 信号 ,得 出 预测 误差 信号 进行 编 码 。 其 预测 精度 较 
噩 ,并 可 获得 较 低 的 编码 速率 ,代价 是 引入 一 帧 时 间 的 算法 时 延 。 反 回 预 测 有 来 用 上 一 帆 的 样 
本 值 算 出 预测 融 系 数 , 以 此 预测 天 计算 当前 帧 的 预测 信号 , 它 虽 然 没 有 算法 时 延 , 但 预测 精 


度 较 低 。 
2.G.726 语音 编码 
ADPCM 已 形成 国际 标准 ,ITU-T( 原 CCITT) 在 1988 年 制定 了 G. 726 标准 ,将 1984 


年 和 1986 年 分 别 制定 的 ADPCM 标准 G. 721 和 G.723 进行 了 合并 ,同时 也 删除 了 上 述 两 
个 标准 。G. 726 能 提供 4 种 数码 率 : 40Kbps、32Kbps、24Kbps、16Kbps。 其 语音 质量 相当 
于 64Kbps 的 PCM 编码 ,并 具有 很 好 的 抗 误 码 性 能 。 图 5-8 为 G. 726 的 编码 需 方 框图 。 编 
但 天 的 输入 为 8 位 的 A 律 或 六 律 PCM 信号 ,站 和 完 通 过 转换 冀 将 其 转换 为 14 位 的 均 习 量化 
的 PCM 编码 。 然 后 减 去 线性 预测 融 输 出 的 预测 信号 x.(72) ,得 到 预测 误差 信号 4d(n), 上 髓 经 
非 均 匀 目 适应 量化 硕 得 到 编码 信号 c(n)。 一 方面 将 c(C) 传 送 给 解码 硕 ; 另 一 方面 将 其 输 
入 反 同 日 适应 量化 疾 进 行 D/A 转换 ,还 原 得 到 模拟 量化 差分 信号 ds (nn), 供 反馈 回路 生成 
重 构 信 号 和 预测 信号 。 目 适应 量化 名 和 反问 目 适 应 量化 硕 均 受 矿 度 因 了 于 y(n) 控 制 , 其 量化 
特性 的 变化 与 信号 的 动态 范围 相 匹 配 。 自 适应 量化 速度 控制 器 采用 双 模 式 自 适应 : 对 幅度 
变化 较 大 的 语音 信号 进行 快速 处 理 , 其 标尺 因子 为 y,(n); 对 幅度 变化 较 小 的 带 内 数据 和 信 
令 进 行 慢 速 目 适 应 处 理 , 其 尺度 因子 为 y(n)。 总 的 标尺 因子 y(70) 为 y(n) 和 yi1(7) 的 线性 
组 合 , 即 
y(n) = kin)ys nO m1)+[l mk(n) jy nom 1) (5-12) 
式 中 ,k(n) 为 目 适 应 控制 参数 ,有 0 硅 kj(n) 硅 1。ki1(n) 由 月 适应 速率 控制 右 模 块根 据 差 分 
言 号 变化 速率 确定 。 对 于 二 首 数 据 ,k1 (nn) 趋 于 1, 对 于 市 内 数据 或 信 令 ,ki1(n) 趋 于 0。z,(n) 
和 ta(n) 为 信号 音 检测 信号 ,由 信和 号 音 和 转换 检测 冀 生 成 , 供 日 适应 控制 模块 转换 适应 模式 。 
日 适应 预测 冀 根 据 量 化 差分 信号 dn) 计算 预测 信号 ze(z) ,用 一 个 两 阶 的 全 极点 滤波 
大 和 一 个 六 阶 的 全 零点 滤波 盖 实 现 。G.726 采用 反馈 型 日 适应 和 反问 预测 的 方法 ,编码 中 
仅 包 括 预 测 误差 信号 编码 ,不 包含 预测 系数 和 有 目 适 应 量化 希 的 量化 间隔 或 增益 因子 等 参数 。 
解码 冀 方 框图 如 图 5-9 所 示 ,其 模块 基本 上 与 编码 郑 中 的 反馈 回路 部 分 相同 。 其 中 同 
步 编码 调整 模块 的 作用 是 防止 同步 级 联 情况 下 产生 累计 失真 ,调整 PCM 输出 编码 以 消除 
后 面 一 个 ADPCM 级 的 量化 失真 。 
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重 构 信号 
ADPCM 输 出 计算 厂 


c(n) 


x(n) | 输入 PCM |xi(n) | 差分 信号 | dm) 自 适 应 有 反 向 自 适 应 
格式 转换 器 计算 量化 器 | 量化 器 


| 


量化 闫 尺度 因子 
目 适 应 逻辑 


daln) 目 适应 
预 宙 达 


ko(n) 


位 测 蔡 


Xa(n) 


重 构 信 和 号 


四 计算 如 
日 国生 


预测 各 


反 向 自 适 应 
量化 器 


量化 可 尺度 因子 EE 目 适 应 速度 | 音信 号 和 转换 
检测 般 


目 适 应 逻辑 必 鹤 盾 
CC 


5-9 G.726 解码 器 方 框图 


3. 长 时 预测 和 噪声 整形 

在 ADPCM 系统 中 增加 长 时 预测 和 了 噪声 整形 机 制 , 可 以 进一步 改善 编码 质量 。 
ADPCM 中 的 线性 预测 疮 是 利用 相 邻 知 干 样本 的 采样 值 来 预测 当前 样本 的 采样 值 ,这 种 预 
测 经 常 被 称 为 短 时 预测 。 实 际 上 ,对 短 时 预测 所 得 到 的 预测 误差 信号 还 可 以 再 次 进行 长 时 
预测 ,从 而 得 到 功率 更 小 的 差分 信号 ,获得 更 高 的 编码 增益 。 浊 音信 号 是 准 周 期 信号 ,其 周 
期 相当 于 基 音 周期 ,因此 相 邻 周期 的 样本 之 间 具 有 很 大 的 相关 性 。 经 过 短 时 预测 之 后 ,预测 
误差 序列 仍然 保持 着 这 种 相关 性 ,从 而 显示 出 明显 的 周期 性 。 利 用 这 种 周期 性 再 次 进行 预 
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测 ,预测 硕果 数 为 

P(z) = ld (5-13) 
式 中 ,B 为 预测 系数 ,D 为 基 首 周期 。 即 用 上 一 个 基 首 周期 的 灯 梓 值 来 预测 当前 周期 的 采样 
值 。 这 样 , 用 预测 信 epeetidei seg or ent cannedncnse gti 从 而 可 以 进 一 
步 压 缩 量 化 字 长 。 为 了 与 短 时 预测 的 概念 相 区 别 ,经 第 将 这 种 基于 基 音 周期 的 预测 称 为 长 
时 预测 。 

在 语音 编码 中 ,量化 希 不 可 避免 地 会 产生 量化 噪声 。 这 种 量化 噪声 可 以 近似 地 看 做 是 
高 斯 日 史 声 , 即 噪声 谱 是 平坦 的 。 但 是 由 于 人 耳 的 听 筑 灵敏 度 在 整个 诺 上 并 不 是 均 习 分 布 
的 ,因此 方差 最 小 的 量化 品 声 信号 对 人 耳 的 感 和 澳 来 说 不 一 定 是 最 小 的 。 如 采 能 整形 噪声 庶 ， 
使 其 在 人 耳 感 党 灵 敏 的 频段 内 噪声 能 量 小 ,而 相 
对 地 在 人 耳 不 灵敏 的 频段 内 咯 声 能 量 大 ,无 疑 会 
使 噪声 更 不 易 和 被 察 铬 ,从 而 提高 培 音质 量 。 史 疡 
整形 的 工作 原理 如 图 5-10 所 示 。 

量化 噪声 通过 品 声 整形 滤波 副 G(z) 进 行 全 


_X(n) X (1) 


Hn) 


反馈 ,E(z) 为 整形 前 的 量化 误差 e(n) 的 Z 变换 ， 图 5-10 ”噪声 谱 整 形 工作 原理 图 

EE (z) 为 整形 后 的 量化 误差 ,量化 器 输出 为 
Y(z) = (2) +E(z) = X(z) — E(z)G(z) | E(z) Ly 
Ez) = [1 — OY Et (5-15) 


对 F(z) 的 频谱 按 1 一 G(z) 进 行 整 形 ,就 得 到 整形 后 的 量化 误差 的 频谱 。 噪 声 整形 技术 
的 关键 是 如 何 选取 合 适 的 噪声 整形 滤波 器 G(z) ,以 得 到 满意 的 噪声 谱 。 选 取 的 方法 很 多 ， 

里 介绍 较 常用 的 三 种 方法 : 

(1) 利用 人 和 耳 的 听觉 掩蔽 效应 ,使 噪声 谱 的 包 络 形状 跟随 语音 频谱 的 包 络 变化 ,从 而 使 
量化 噪声 的 能 量 集 中 在 信和 号 的 高 能 量 区 域 , 如 共振 峰 处 。 通 过 语音 信和 号 来 掩盖 噪声 ,获得 更 
好 的 主观 听觉 效果 。 

(2) 整形 噪声 谱 使 其 符合 人 耳 的 听觉 灵敏 度 曲 线 , 使 噪声 能 量 集中 在 听觉 不 敏感 的 区 
域内 。 国 际 标准 组 织 认可 的 人 耳 听 觉 灵敏 度 曲线 如 : 正 - 计 权 曲线 F- 计 权 曲 线 等 。 

(3) 对 量化 噪声 进行 低频 衰减 、 高 频 提 升 , 从 而 把 大 部 分 量化 噪声 转移 到 信号 频带 以 
外 ,提高 量化 信号 的 信 品 比 。 


5.1.6 增 量 调制 和 目 适应 增 量 调制 


增 量 调 制 (delta modulation,DM) 是 DPCM 的 一 种 特殊 形式 。 根 据 采 样 定 理 , 采 样 频 
率 必 须 大 于 邓 奎 斯 特 频率 。 当 系统 的 采样 频率 大 于 系 奎 斯 特 频率 很 多 倍 时 , 则 相 邻 采样 人 
之 加 的 相关 性 会 变 得 非常 强 , 差 分 信和 号 的 幅 值 会 在 一 个 很 小 的 动态 范围 内 变化 ,这 样 就 可 以 
用 正 负 两 个 固定 的 电 平 来 表示 差分 信号 。 因 此 在 DM 中 , 仅 用 1 比特 就 能 量化 差分 信号 , 即 
只 需 指示 极 性 。 所 采用 的 固定 电 平 值 被 称 为 量化 阶梯 ,在 接收 端 , 用 上 升 下 降 的 阶梯 波形 来 
通 近 语音 信号 。 

基本 的 DM 使 用 固定 的 量化 阶梯 A, 当 差分 信号 的 幅 值 大 于 A 时 ,量化 为 0; 小 于 一 A 
时 ,量化 为 1; 车 差分 信号 的 绝对 值 小 于 A, 既 可 取 0 也 可 取 1, 一 般 应 让 0 和 1 交替 出 现 。 
如 何 选 取 适 当 的 A 值 ,要 考虑 两 方面 的 因素 : 一 方面 大 A 值 选取 的 太 小 , 则 当 语 首 急剧 变 
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化 时 , 重 构 信号 会 因 不 能 反映 信号 的 变化 而 产生 和 斜率 过 载 失 真 ; 男 一 方面 , 奢 A 选取 的 太 
大 , 则 当 输 入 信号 变化 比较 平稳 时 ,量化 输出 将 呈现 0、1 交 茶 的 序列 ,使 重 构 信 号 围绕 着 某 
-固定 电 平 重复 增 减 ,产生 晰 粒 噪 声 。 实 际 上 ,由 于 这 两 方面 的 因素 相互 矛盾 ,很 难 确 定 一 
个 适当 的 A 值 。 解 决 办 法 是 采用 日 适应 技术 ,实现 日 适应 增 量 调 制 (adaptive DM,ADM)。 

ADM 的 基本 原理 是 使 A 值 随 信 号 的 平均 斜率 而 变化 , 冬 率 大 时 ,A 值 目 动 增 大 ; 反之 
A 值 减 小 。 这 样 A 值 跟随 输入 波形 日 适应 的 变化 ,使 得 斜率 过 载 失 正和 盯 粒 虽 再 部 减 至 最 
小 。ADM 一 般 采 用 反馈 和 目 适应 方式 ,避免 发 送 边 信息 。 

5.1.7 子 市 编码 

以 上 所 介绍 的 都 是 基于 时 域 的 波形 编码 技术 。 下 面 介 绍 两 种 频 域 编 但 : 子 市 编 馈 和 日 
适应 变换 域 编码 。 本 节 主 要 介绍 子 带 编码 ,而 自 适 应 变换 域 编码 将 在 下 节 中 详细 介绍 。 

所 谓 子 带 编码 (sub-band coding,SBC) ,就 是 首先 将 输入 信号 分 割 成 几 个 不 同 的 频带 分 
量 ,人 然后 髓 分别 进行 编码 。 这 种 编码 方式 主要 有 以 下 四 个 优点 : 

(1) 语 首 信号 的 频谱 是 非 平坦 的 , 且 对 人 耳 的 听觉 的 贡献 也 是 不 均匀 的 。 多 数 人 的 语 
音信 号 能 量 主 要 集中 在 500Hz 一 1kHz 左右 ,并 随 着 频率 的 升 高 衰减 得 很 快 。 因 此 子 带 编 
码 可 以 根据 不 同 频段 给 各 子 带 合理 地 分 配 量 化 字 长 ,使 编码 速率 更 精确 地 与 各 子 带 的 信 源 
统计 特性 相 匹 配 。 例 如 可 以 用 较 高 的 比特 数 使 低频 市 的 基 音 和 共振 峰 保 存 较 高 的 精度 ,而 
对 发 生 在 高 频带 的 摩擦 音 及 噪声 样 值 只 分 配 较 少 的 编码 比特 。 

(2) 高 频段 的 于 市 信号 可 以 通过 频谱 平移 变换 成 基 市 信号 ,然后 用 相对 较 低 的 采样 频 
率 进行 欠 采 样 后 再 进行 编码 。 这 样 编码 中 各 子 带 信号 的 采样 率 显 然 都 远 低 于 原 信号 的 采样 
率 , 从 而 得 到 较 低 的 编码 速率 。 

(3) 调整 不 同 子 带 的 量化 字 长 ,就 控制 了 总 的 量化 噪声 的 频谱 形状 ,进一步 与 语音 心 
理 - 生 理 模 型 相 结 合 ,可 将 噪声 谱 按 人 耳 主 观 噪 声 感知 特性 来 成 形 。 

(4) 各 子 市 内 的 量化 噪声 都 被 束缚 在 本 子 市 内 ,这 样 就 避免 能 量 较 小 频 寓 内 的 输入 信 
吕 被 其 他 频段 的 量化 噪声 所 掩盖 。 

了 带 编码 的 工作 原理 如 图 5-11 所 示 ,首先 用 一 组 带 通 滤波 需 (BPF) 将 输入 信号 频带 分 
制 成 奉 干 个 子 频 市 ,然后 用 调制 的 办 法 将 这 些 帘 通信 号 经 过 频谱 平移 变 成 基 融 信号 ,以 利于 
降低 采样 率 进 行 抽取 (进行 伙 采 样 ) ,抽取 后 的 信号 按 波 形 编码 技术 (PCM、ADPCM 等 ) 进 
行 编码 。 最 后 将 各 子 市 的 编码 数据 复 接 成 一 个 总 编码 数据 发 送 给 接收 问 。 接 收 端 首先 通过 
内 皇居 复原 始 的 采 样 率 , 然 后 经 过 频率 平移 恢复 到 原来 的 频段 ,最 后 各 个 频 市 的 分 量 相 加 得 
到 重 构 语 音信 号 。 

子 带 编码 中 各 带 通 滤 波 需 的 视 度 可 以 相同 ,也 可 以 不 同 。 onenessdiee 
便 件 实现 ,但 因为 没有 考虑 人 和 耳 的 听觉 效果 ,难以 获得 很 好 的 语音 一 般 情 况 下 都 采用 
不 等 带宽 子 带 编码 ,而且 按照 对 主观 听觉 贡献 相等 的 原 dope ey 同时 为 了 
易于 实现 频谱 平移 ,实际 使 用 时 往往 采用 "整数 市 ?采样 方法 。 所 谓 整 数 市 ,是 指 子 寓 最 低频 
率 为 子 带 带 宽 的 整数 们 ,这 样 平移 频谱 成 分 时 ,可 以 不 用 调制 器 而 直接 实现 ,如 图 5-12 
所 示 。 

子 带 编码 中 , 重 构 信 号 量 受 寓 通 滤波 需 组 的 性 能 影 啊 很 大 。 理 想 情 况 下 ,各 子 介 之 
和 可 以 履 产 全 部 信号 带宽 ， en i 数字 滤波 需 的 阻 带 和 通 带 总 存在 波动 , 难 
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(a) 编码 器 


WY 
解码 器 2 频谱 平移 | 带 通 滤波 2 


重 构 请 音 


编 怒 数据 


解码 器 M | 频谱 平移 | = | 带 通 滤波 M[ 
(b) 解码 器 
图 5-11 子 带 编码 原理 框图 


带 通 滤波 i 3 A 二 汪汪 市 通 滤 小 ; 
mj ~ (mt ly jf Mifi™~— (mit 1) 
(a) 编码 解码 过 程 
(7) 
-3 -2 0 2 3 f HHH 0 HR 7 
(b) xj(n) 的 幅度 谱 m=2 (c) 按 2f 盎 采样 
IrA 7 )| 
\ Fi(f) 


3 0 3 -3 —2f 0 2 3 Of 
(d) 再 末 样 后 的 信号 请 (e) 重 构 信 和 号 幅度 谱 


图 5-12 ” 子 市 编码 中 的 整数 市 采样 方法 及 频谱 的 变化 


以 得 到 这 种 理想 情况 。 如 末了 于 市 滤波 后 的 各 频 市 重合 太 多 ,将 会 需要 更 大 的 数码 率 ; 原来 
各 独立 于 市 的 误差 也 会 影 啊 相 邻 的 于 市 ,造成 混 欠 现象 。 早 期 的 解决 方法 是 让 相 侣 子 市 间 
留 有 间 际 , 尽 省 如 此 ,这 些 则 际 仍 会 引起 轩 出 结 来 的 回声 现象 。 现 在 多 采用 正 交 镜像 滤波 带 
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(quadrature mirror filter, QMF) 技 术 来 解决 这 一 问题 。QMEF 人 允许 编码 硕 分 解 滤波 中 的 混 
车 现象 ,而 在 解码 端 通 过 重 构 滤 波 兹 可 以 准确 无 误 地 消除 混 羞 。 

ITU- 工 制定 的 G. 722 标准 就 是 基于 SBC 的 编码 器 算法 , 它 采 用 ADPCM 技术 对 抽取 
后 的 信号 进行 编码 ,该 算法 将 采样 频率 提高 到 16kHz, 以 适应 高 质量 语音 应 用 的 场合 ,例如 
电话 会 议 或 视频 会 议 等 。 它 利用 正 交 镜像 滤波 副将 语音 频带 分 成 两 个 子 币 ,高 问 子 市 采用 
16Kbps 的 ADPCM 进行 编码 , 低 端 采用 48/40/32Kbps 的 ADPCM 编码 。 因 此 ,G. 722 可 
提供 3 种 不 同 的 数码 率 : 64Kbps、56Kbps 和 48Kbps。 


5.1.8 自 适 应 变换 域 编码 


自 适 应 变换 域 编码 (adaptive transform coding,ATC) 与 SBC 一 样 ,在 频 域 上 寻找 语音 
的 压缩 途径 。ATC 与 SBC 者 是 在 频 域 上 分 割 信号 的 编 但 方式 。 

ATC 对 语音 信号 进行 正 交 变换 ,以 去 除 样本 间 的 相关 性 ,变换 后 的 系数 将 集中 在 一 个 
较 小 的 范围 内 ,所 以 对 变换 系数 进行 量化 编码 后 ,可 以 实现 数码 率 的 压 贿 。 在 接收 庙 解码 
后 ,可 用 相应 的 逆 变 换 重 构 语 音信 号 。 由 于 进行 了 正 交 变换 ,实际 上 等 同 于 把 时 域 的 语音 信 
号 变换 到 为 一 个 域 中 去 ,因此 被 称 为 变换 域 编 码 。 它 通过 去 除 语音 样本 间 的 相关 性 ,达到 了 
减少 语音 中 元 余 信息 的 目的 。 

编 但 时 , 先 将 墙 音信 号 序列 分 帧 ,每 帧 表示 为 一 个 天 量 zx 一 (zz ,XNn) ,然后 用 正 
交 变 换 矩 阵 4 进行 线性 变换 

y= Arx ‘16 

式 中 ,A 满足 4“ 二 A ,y 中 的 元 系 就 是 变换 域 的 系数 ,各 元 系 可 以 看 作 是 互 不 相关 的 ,或 基 
本 上 是 互 不 相关 。 对 其 进行 量化 后 得 到 矢量 了 。 在 解码 端 通过 逆 变 换 重 构 出 信号 矢量 为 

站 一 二 上 

变换 域 编 码 的 关键 是 提供 一 种 合适 的 正 交 变换 。 从 去 除 相 关 性 的 意义 来 讲 ,KL 变换 

(Karhunen-Loeve Transform) 是 最 佳 的 ,但 是 它 需 要 计算 变换 矩阵 及 逆 和 矩阵 ,不 仅 计算 量 

大 ,而 且 需 要 传送 边 信 息 ,很 难 实际 应 用 。 在 变换 域 编 码 中 ,最 种 采用 的 正 交 变换 是 离散 余 

驴 变 换 (discrete cosine transform ,DCT) , 它 与 KL 变换 相 比 , 频 域 的 概念 比较 直观 , 且 与 人 
的 听 筑 频率 分 析 机 理 相 对 应 ,因此 容 多 控制 量化 噪声 的 频率 范围 。 从 信 史 比 的 角度 看 ， 

DCT 变换 比 KL 变换 只 相差 1 一 2dB ,计算 复杂 性 却 小 得 多 。 此 外 ,其 他 正 交 变换 ,如 快速 传 
里 叶 变换 FFT、 沃 尔 什 一 哈达 马 变换 WHT 等 , 因 其 计算 上 的 优势 ,也 有 一 定 的 实用 价值 。 

变换 域 编码 通 营 vratarergt mbesisqgr hurt 在 非 日 适 
应 的 情况 下 ,人 码 位 分 配 和 量化 则 阳 均 根据 语音 信号 长 时 间 统 计 特 性 来 确定 ,是 固定 不 变 的 。 
gas end iene 使 用 售 计 的 详 值 代替 方差 ,再 计 算出 码 位 的 

。 将 表征 估计 谱 的 参数 作为 边 信 息 传 送 到 解码 端 ,由 解 公 端 使 用 与 编码 端 相同 的 步 又 
nt 比特 分 配 ,解码 变换 域 参数 。 

ATC 的 优 秒 取决 于 自 适 应 的 效果 , 即 估计 谱 对 语音 信号 短 时 DCT 谱 的 逼近 程度 ,因此 
码 位 的 分 配 应 使 售 计 谱 能 正确 反映 变换 域 系 数 的 能 量 分 布 ,但 是 由 于 估计 谱 要 作为 边 信 息 
传送 ,所 以 它 所 占 的 比特 数目 然 要 受到 一 定 的 限制 。 在 ATC 中 , 谐 佑 计 篆 使 用 线性 预测 分 
析 的 方法 或 线性 滤波 天 组 的 方法 。ATC 的 原理 如 图 5-13 所 示 。 


计算 比特 分 
配 量化 间隔 


估计 详 


(a) 网 码 需 (b) 解码 希 
图 5-13 ATC 编码 解码 工作 原理 框图 


5.2 参数 编码 和 混合 编码 


参数 编码 器 又 称 声 码 器 (vocoder) ,其 原理 和 设计 思想 与 波形 编码 完全 不 同 。 波 形 编码 
的 基本 思路 是 忠实 地 再 现 语 音 的 时 域 波形 , 它 在 32Kbps 的 编码 速率 下 能 够 得 到 非常 好 的 
话音 质量 。 在 话 务 过 载 的 情况 下 ,还 可 降 质 使 用 24Kbps 或 16Kbps 编码 速率 ,但 要 进一步 
降低 比特 率 就 比较 困难 。 因 此 ,使 用 波形 编码 方式 实现 的 语音 编码 需 大 多 属于 中 高 速率 的 
编码 需 。 人 参数 编码 根据 声音 形成 机 理 的 分 析 , 着 眼 于 构造 语音 生成 模型 ,该 模型 以 一 定 的 精 
度 模 拟 说 话 人 的 发 音声 道 ,接收 端 根 据 该 模型 还 厚生 成 合成 语音 。 编 码 需 发 送 的 主要 信息 
是 该 模型 的 参数 ,相当 于 语音 的 主要 特征 ,而 不 是 具体 的 语音 波形 的 幅 值 。 参 数 编 码 器 是 最 
时 成 功 应 用 的 语音 编 码 需 , 它 将 分 析 与 合成 结合 起 来 ,实际 上 是 一 种 语音 分 析 合 成 系统 。 因 
为 仅 传 输 模 型 参数 所 需要 的 数据 量 要 小 得 多 ,所 以 参数 编码 可 以 实现 很 低 的 编码 速率 , 例 
如 ,可 以 达到 2. 4Kbps 甚至 2. 4Kbps 以 下 。 但 是 参数 编码 器 也 有 语音 质量 差 ,自然 度 较 低 ， 
对 环境 噪声 敏感 等 缺点 。 和 典型 的 参数 编码 大 有 通道 声 码 希 、 共 振 峰 声 码 需 及 线性 预测 声 码 
右 等 ,其 中 线性 预测 声 码 器 目前 得 到 了 广泛 的 应 用 .。 

20 世纪 70 年 代 中 期 ,特别 是 20 世纪 80 年 代 以 来 ,语音 编码 技术 有 了 突破 性 的 进展 ,一 
些 非 常 有 效 的 处 理 方 法 被 提出 ,产生 了 新 一 代 的 参数 编码 算法 ,也 就 是 混合 编码 。 混 合 编码 克 
服 了 参数 编码 激励 形式 过 于 简单 的 缺点 ,成 功 地 将 波形 编码 和 参数 编码 两 者 的 优点 结合 起 来 ， 
既 利 用 了 语音 产生 模型 ,通过 对 模型 参数 进行 编码 ,减少 被 编码 对 象 的 动态 范围 和 数据 量 ; 又 
使 编码 过 程 产生 接近 原始 语音 波形 的 合成 语音 ,以 保留 说 话 人 的 各 种 月 然 特 征 , 提 高 了 语音 质 
量 。 混 合 编码 需 在 4 一 16Kbps 的 数码 率 上 能 够 得 到 高 质量 的 合成 语音 。 目 前 比较 成 功 的 混合 
编码 器 有 多 脉冲 激励 线性 预测 编码 (MPLPC) 、 规 则 脉冲 激励 线性 预测 编码 (RPELPC) 、 码 激励 
线性 预测 编码 (CELP) 以 及 多 带 激 励 (MBE) 编 码 等 。 其 中 ,MPLPC、RPELPC 和 CELP 是 基于 
全 极点 语音 产生 模型 的 混合 编码 器 ,而 MBE 是 基于 正弦 模型 的 混合 编码 器 。 


5.2.1 参数 编码 


参数 编码 的 基础 是 语音 产生 的 模型 ,如 第 2 章 的 图 2-18 所 示 。 根 据 该 模型 对 语音 信号 
进行 分 析 可 以 得 到 谱 包 络 、 基 音 周 期 以 及 清 浊音 判别 等 信息 ,其 中 谱 包 络 信息 是 一 组 定义 声 
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道 共 振 特 性 的 滤波 硕 系 数 。 如 条 将 上 述 参数 编码 后 传输 到 接收 奖 , 那 么 驶 可 以 在 同样 的 请 
音 模 型 的 基础 上 合成 语音 信号 ,合成 希 中 所 有 用 声 道 滤 波 融 的 形式 与 编码 如 的 谱 包 络 分 析 
融 的 形式 相对 应 ,它们 的 不 同形 式 决 定 了 声 码 关 的 不 同类 型 ,如 通道 声 码 天 .共振 峰 声 码 需 
和 LPC 声 码 器 等 。 

1. 通道 再 码 器 

最 在 老 的 博 音 编码 交 置 就 是 通道 声 码 带 , 它 是 基于 短 时 傅 里 叶 变 换 的 语音 分 析 合 成 系 
统 ,发 送 问 通过 硅 十 个 并 联 的 通 站 对 语 首 信 号 进行 粗略 的 频谱 佑 计 , 而 接收 问 产 生 一 信和 号， 
使 频谱 与 发 送 端 规定 的 频谱 相 匹 配 。 通 道 声 码 郑 的 厚 理 图 如 图 5-14 所 示 。 


A/D 滤波 器 1 


A/D 滤波 器 2 


带 通 询 出 
滤波 器 入 语音 


低 通 和 
A/D 


济 消 首 判 决 


基 音 提取 … 一 = 冲 激 发 生 器 
发 送 端 接收 端 
图 5-14 通道 声 码 器 原理 图 


在 发 送 端 ,输入 请 首 锌 加 于 滤波 帮 组 和 基 瘟 提取 亲 上 。 滤 波 带 组 将 请 首 的 频率 范围 分 
成 计 多 相 邻 的 频 市 或 通道 , 涯 波 融 的 个 数 奥 型 值 为 10 一 20 个 。 这 种 频 市 的 划分 并 不 是 均匀 
的 ,低频 部 分 市 宽 较 军 , 以 保证 低频 段 有 较 局 的 频率 分 辨 能力。 整流 电路 取出 各 频段 信号 幅 
值 , 低 通 滤波 融 的 目的 是 避免 采样 后 产生 混 琶 失真 ,同时 完成 信号 的 A/D 转换 。 每 一 路 通 
道 输出 对 应 频 市 的 幅度 谱 的 均值 ,这 一 组 数据 就 反映 了 了 信号 频谱 的 包 络 。 将 其 己 清 浊音 判 
决 信号 和 基 首 周期 一 起 编码 后 传送 到 接收 瑞 。 

在 接收 疡 ,通过 清 浊 音 判决 信号 和 基 音 周期 来 提供 声 门 激励 信号 ,并 用 频 语 包 络 信号 对 
其 进行 调制 ,经 市 通 滤 波 带 输出 后 合 加 在 一 起 就 合成 为 输出 二 首 信 号。 

编码 天 中 的 预 加 重 和 模块 的 作用 是 按 6dB/ 倍 频 程 的 比例 补偿 嘴唇 罚 射 格 减 ,使 得 各 通 诞 
得 出 信号 的 电 平 大 致 相同 。 相 应 地 ,在 接收 病 应 设置 一 个 具有 一 6dB/ 傍 频 程 可 减 的 逆 滤 波 
舱 进 行 去 加 重 。 

通道 声 公 大 的 主要 缺点 是 震 要 检测 基 音 周期 和 进行 清 浊 音 判 决 ,而 精确 地 求 出 这 两 部 
分 数据 是 相当 困难 的 ,其 误差 会 对 合成 语音 的 质量 造成 很 大 的 影响 。 此 外 , 巾 于 通道 数量 有 
限 , 可 能 几 个 谐 波 分 量 会 落 人 同一 个 通 所 ,在 合成 时 它们 将 被 屿 子 相 同 的 幅度 , 绪 朱 了 寻 致 频 
谱 盯 变 。 
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2. 共振 峰 声 码 希 
共振 峰 声 码 融 不 是 将 声音 信号 划分 成 多 个 频段 ,而 是 对 整体 进行 分 析 , 提 取 共 振 峰 的 位 
置 .幅度 和 市 宽 等 参数 ,构成 两 个 声 道 滤波 和希 。 省 音 滤 波 关 采用 全 极点 滤波 顶 ,由 多 个 二 阶 
滤波 病 级 联 而 成 ; 清音 滤波 希 一 般 采 用 1 个 极点 和 1 个 去 点 的 数字 滤波 入。 这 些 滤波 毅 的 
参数 部 是 时 变 的 。 图 5-15 为 共振 峰 声 码 带 的 合成 带 结 构 。 其 中 共振 峰 FF 、F,、F; 为 浊音 滤 
波 天 的 参数 ,极点 ,和 零点 ,为 清音 滤波 带 的 参数 ,了 为 基 音 频率 ,A,、A, 为 增益 系数 。 
可 变 极 夫 


凡 系 统 


冲 激 序列 可 变 全 极 
发 生 器 点 系统 


Fo | A F F; 


图 5-15 ”共振 峰 声 码 器 的 合成 器 结构 


与 通道 声 码 器 相 比 ,共振 峰 声 码 右 合成 出 语音 的 质量 更 好 ,比特 率 可 压缩 得 更 低 。 

3. 线性 预测 (LPC) 声 码 器 

LPC 声 码 需 是 应 用 最 成 功 的 低速 率 语 音 编码 需 。 它 基于 全 极点 声 道 模 型 的 假定 ,采用 
线性 预测 分 析 合 成 原理 ,对 模型 参数 和 激励 参数 进行 编码 传输 。LPC 再 码 冀 遵循 二 元 激励 
的 假设 , 即 浊 音 场 音 段 采用 间 隅 为 基 音 周期 的 脉冲 序列 ,清音 语音 段 采用 日 噪声 序列 。 因 
此 , 声 码 疑 只 需 对 LPC 参数 、 基 音 周 期 .增益 和 清 浊 信息 进行 编码 。LPC 声 码 上 需 可 以 得 到 
很 低 的 比特 率 (2. 4Kbps 以 下 ) 。 它 的 工作 原理 如 图 5-16 所 示 。 


线性 预测 
人 台 成 匣 


图 5-16 LPC 声 码 器 原理 图 


虽然 LPC 声 码 希 与 ADPCM 一 样 , 部 是 基于 线性 预测 分 析 来 实现 对 语 首 信 号 的 编码 压 
缩 ,但 是 它们 之 间 有 本 质 的 区 别 ,LPC 声 码 器 不 考虑 重建 信号 波形 是 否 与 原来 信号 的 波形 
相同 ,而 努力 使 重建 信和 号 在 主观 感觉 上 与 输入 语音 一 致 ,所 以 不 必 量 化 和 传输 预测 残 差 ,而 
只 需 传 输 LPC 参数 和 重 构 激励 信号 的 基 音 周期 和 清 省 信息 。 

如 第 4 草 所 述 ,LPC 分 析 存 在 多 种 推演 参数 ,选用 哪 种 参数 进行 编码 ,需要 考虑 如 下 两 
个 因 孙 。 

(1) 参数 的 量化 特性 : 参数 的 量化 特性 与 参数 的 详 灵 敏 度 是 密切 相关 的 ,所 谓 请 灵敏 
度 是 指 参 数 的 微小 变化 了 所 引起 的 谱 变 化 的 程度 。 谱 灵敏 度 比 较 均 匀 的 参数 ,其 量化 特性 就 
好 ,对 于 一 定 的 谱 失 真 允 许 范 围 , 参 数 编码 所 需要 的 总 比特 数 就 比较 小 ,合成 滤波 器 的 稳定 
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性 也 会 比较 好 。 

(2) 参数 的 内 插 特 性 : 在 编码 系统 中 ,和 常 需要 将 两 组 LPC 参数 进行 线性 内 插 ,得 到 另 一 
组 LPC 参数 作为 两 者 之 间 的 过 渡 ,以 便 使 合成 语音 的 频谱 特性 过 渡 更 加 目 然 平滑 。 如 果 参 
数 的 编码 特性 很 好 ,但 它 内 插 所 得 到 的 参数 不 代表 频谱 的 平滑 过 渡 ,甚至 导致 合成 不 稳定 的 
滤波 器 ,这样 的 参数 -pri 现在 来 比较 几 种 LPC 参数 的 编码 性 能 。 

1) 线性 预测 系数 {a 

线性 预测 系数 (a;} yA 它 的 谱 灵 敏 度 极 不 均匀 ,有 些 系 数 很 小 的 
变化 ,就 可 能 会 引起 频谱 发 生 很 大 的 变化 。 而 且 线 性 预测 系数 的 内 插 特 性 也 很 差 ,内 插 得 到 
的 新 参 效 ,不 一 定 能 够 构成 稳定 的 合成 滤波 天 。 

2) 反射 系数 { 店 } 

用 反射 系数 构成 的 格 型 滤波 需 是 一 种 参数 灵敏 度 较 低 的 合成 滤波 需 , 它 稳定 的 充分 必 
要 条 件 是 | 已 | 过 1。 这 一 点 无 论 是 在 对 参数 进行 量化 编码 时 ,还 是 在 对 参数 进行 线性 内 插 时 
都 容易 保证 。 因 此 ,反射 系数 被 广泛 地 应 用 于 语音 的 编码 及 合成 。 但 是 反射 系数 的 谱 灵 敏 
度 并 不 均 勺 ,其 绝对 值 越 接 近 1, 谱 灵敏 度 就 越 高 。 因 此 ,采用 反射 系数 进行 编码 时 ,一 般 都 
采用 非 线性 量化 ,比特 数 分 配 也 不 是 平均 分 配 的 。 通 常 和 用 5 一 6 比特 ,其 他 各 阶 , 随 阶 
数 增 加 量化 比特 数 逐 渐 减 少 。 

3) 对 数 面 积 比 {g;} 

对 数 面 积 比 参数 可 由 下 式 计算 . 

gs = li A = Lt BN li C5- 183 

式 中 ,A; 就 是 多 节 无 损 声 管 中 第 i 市 的 截面 积 。 

由 于 式 (5-18) 将 域 一 1 二 ;二 1 上 映射 到 一 ce 委 gi 和 十 ce , 它 使 g; 呈现 相当 均匀 的 幅度 分 
布 , 可 以 进行 均匀 量化 。 此 外 ,对 数 面 积 比 参数 各 维 之 间 相 关 性 很 低 , 因 此 能 够 保证 通过 线 
性 内 插 得 到 的 滤波 器 的 稳定 性 。 

4) 预测 多 项 式 的 根 

对 预测 多 项 式 A(z) 做 简单 的 因 式 分 解 ,有 


p £ 
A(z) 一 1 一 ai 由 — zz) (5-19) 


取 A(z) 一 0, 即 可 求 得 一 组 根 。 其 中 每 一 对 根 与 信 号 谱 中 的 -个 共振 峰 相 对 应 。 这 种 参数 
的 优点 是 容易 保证 合成 滤波 需 的 稳定 性 。 只 要 让 {z} 都 在 单位 圆 内 就 可 以 。 其 主要 缺点 是 
求解 多 项 式 的 根 需要 相当 大 的 计算 量 。 

5) 线 谱 对 参数 LSP 

线 谱 对 参数 LSP 是 量化 编码 过 程 中 最 常用 的 LPC 参数 ,实验 证 明 , 其 量化 特性 和 内 插 
特性 都 明显 优 于 其 他 参数 ， LSP 的 P(z) 和 Q(z) 的 根 均 位 于 单位 加 上 , 旦 相互 交 蔡 间 隐 排 
列 ,利用 这 一 性 质 , 很 容易 保证 合成 滤波 硕 的 稳定 性 。LSP 的 频谱 灵敏 度 具 有 很 好 的 频率 
选择 性 ,单个 LSP 的 误差 只 局 限于 该 频率 附近 的 频谱 范围 ,这 种 误差 相对 独立 的 性 质 非常 
有 利于 LSP 的 量化 和 内 插 。 

LPC 声 码 需 在 通信 和 领域 ,尤其 是 军事 通信 和 领域 得 到 了 广泛 的 应 用 。1976 年 美国 确定 用 
LPC 声 码 器 标准 LPC-10 作为 2. 4Kbps 速率 上 的 推荐 编码 方式 。1981 年 这 个 算法 被 官方 
接受 ,作为 联邦 政府 标准 FS-1015 公布 。 利 用 这 个 算法 可 以 合成 清晰 、 可 懂 的 语音 ,但 是 搞 
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噪声 能 力 和 上 自然 度 尚 有 灰 缺 。 上 月 1986 年 以 来 ,美国 第 三 代 保 密 电 话 波 置 (STU- 卫 ) 采 用 了 
速率 为 2. 4Kbps 的 LPC-10e(LPC-10 的 增强 型 ) 作 为 语音 处 理 手 段 。 下 面 介 绍 LPC-10 的 
工作 原理 和 一 些 改 进 措施 。 

图 5-17 为 LPC-10 的 编 但 需 杠 网。 原始 语音 经 过 一 锐 堆 止 的 低 通 滤 波 天 之 后 ,输入 
A/D 转换 器 ,以 8kHz 采样 率 12 比特 量化 得 到 数字 化 语音 ,然后 每 180 个 采样 点 (22. 5ms) 
为 一 帆 ,以 帆 为 处 理 单元 。 编 码 融 分 两 个 文 路 同时 进行 ,其 中 一 个 文 路 用 于 提取 基 音 周期 也 
和 清 浊 音 判 决 信 息 V/UV , 男 一 支 路 用 于 提取 预测 系数 和 增益 因子 RMS。 提 取 基 音 周 期 的 
支 路 把 A/D 变换 后 输出 的 数字 化 语音 缓存 ,经 过 低 通 滤波 .二 阶 逆 滤 波 后 ,再 用 平均 幅度 差 
图 数 (AMDF ) 计 算 基 音 周 期 ,经 过 平 请 .校正 得 到 该 帧 的 基 音 周期 。 与 此 同时 ,利用 模式 匹 
配 技 术 ,基于 低 带 能 量 `.AMDF 函数 最 大 值 和 最 小 值 之 比 、. 过 零 率 进行 清 /浊音 判决 ,判决 结 
条 为 以 下 4 种 状态 中 的 一 个 : 稳定 的 请 音 , 清 音 回 独 音 转换 ,浊音 回 清 音 转 换 和 稳定 的 浊 
音 。 在 提取 声 道 参数 的 支 路 ,先进 行 预 加 重 处 理 , 然 后 增益 因子 RMS 按 如 下 形式 计算 : 


RMS = > (5-20) 


式 中 ,NN 为 分 析 帧 长 ,zx; 为 经 过 预 加 重 后 的 数字 语音 。 
原始 话音 低 通 滤波 A/D 转 换 计算 
输入 100Hz 一 3600Hz 分 析 相位 
预测 夫 


首 分 怕人 存储 匣 
分 析 存 储 茜 


低 通 准 波 人 匣 


请 / 济 检 测 2 阶 闭 滤 访 


eds 全 2 帧 参数 


仔 储 大 


基 音 及 清 /浊音 校正 


数字 语 诗 输出 广 i 
一 一 | 并 变 申 及 同步 产生 | 误差 校正 和 映 对 上 


图 5-17 LPC-10 编码 器 框图 


用 协 方差 法 求 取 10 阶 线性 预测 系数 ,将 线性 预测 系数 转换 成 反射 系数 {k;) ,i 二 1,，…， 
10。 前 两 个 反射 系数 被 转化 为 对 数 面 积 比 系数 后 进行 量化 编码 ,其 余 的 直接 按 线 性 编码 。 
Ri 一 有 4 每 个 系数 用 5 比特 ,Rs 一 局 每 个 系数 用 4 比特 ,为 3 比特 ,io 为 2 比特 , 基 音 周期 和 
清 浊 判决 用 7 比特 ,增益 的 对 数 用 5 比特 ,再 加 上 同步 信息 用 1 比特 ,每 帧 共计 54 比特 , 因 
此 总 的 编码 速率 为 2. 4Kbps。 

解码 时 ,首先 利用 直接 查 表 法 对 数码 流 进行 检 错 和 纠 错 。 经 过 纠 错 解码 后 得 到 基 音 周 
期 . 清 浊 音标 志 、 增 益 及 反射 系数 的 数值 。 解 码 结 果 延 时 一 帧 输出 。 这 样 输出 的 数据 可 以 在 
过 去 1 巾 、 现 在 1 帧 ,将 来 1 帆 共 3 帧 内 进行 平 清 ,由 于 每 帧 语音 只 传输 一 组 参数 ,考虑 一 帧 
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之 内 可 能 有 不 止 一 个 基 音 周期 ,因此 要 对 接收 数值 进行 由 帧 块 到 基 音 块 的 转换 和 插值 ,使 基 
音 周期 . 清 浊音 标志 .增益 及 反射 系数 等 参数 值 每 个 基 音 周期 更 新 一 次 。 在 解码 器 中 ,根据 
菜 文 进 _ 杜 宾 递 推算 法 将 反射 系数 { } 变换 为 线性 预测 系数 {w } ,然后 用 直接 型 递归 滤波 
器 HD 一 1/ . 2 来 合成 语音 ， 激 励 采 用 简单 的 二 元 激励 , 即 用 随机 数 来 作为 清 


音 帆 激励 源 , 用 周期 性 冲 激 序列 通过 一 个 全 极点 滤波 顶 来 生成 溃 首 激励 源 。LPC-10 的 解码 
器 框图 如 图 5-18 所 示 。 


误差 检测 本 机 | 帧 块 到 基 音 块 
同步 检测 校正 解码 的 转换 和 插值 
dd VIUYV 
反射 系数 基 音 || | 噪声 
转换 成 产生 ||| 产生 


预测 系 效 


低 通 滤波 | 合成 语音 输出 
3600Hz 


图 5-18 ”LPC-10 解码 器 框图 


LPC-10 虽然 有 编 权 速率 低 的 优 扣 , 但 是 合成 语音 听 起 来 很 不 月 然 , 即 使 提高 编码 速率 
也 无 济 于 事 。 这 主要 是 因为 清 浊 音 判 决 和 浊音 信号 的 基 音 检测 很 难 做 到 十 分 可 乔 。 有 些 摩 


擦 音 本 身 就 清 浊 难 分 ,在 辅音 与 元 音 的 过 渡 段 或 者 有 背景 噪声 的 情况 下 ,检测 结果 就 更 容易 
发 生 错 误 。 这 种 错误 对 合成 语音 的 清晰 度 影 响 特别 严重 。 此 外 采用 过 分 人 简化 的 二 元 激励 形 
式 ,也 不 符合 实际 情况 ,因而 造成 日 然 度 的 下 降 。 在 增强 型 LPC-10e 中 采用 了 如 下 一 些 措 
施 来 改善 语音 的 质量 : 

1) 激励 源 的 改善 

(1) 采用 混合 激励 代替 简单 的 二 元 激励 。 此 时 ,浊音 的 激励 源 是 由 经 过 低 通 滤波 的 周 
期 脉冲 序列 与 经 过 高 通 滤波 的 日 噪声 相 加 而 成 的 ,周期 脉冲 与 噪声 的 混合 比例 随 输入 语音 
的 浊 化 程度 变化 。 清 音 的 激励 源 是 白 噪 声 加 上 位 置 随机 的 一 个 正 脉 冲 跟随 一 个 负 脉 冲 的 脉 
冲 对 形成 的 爆破 脉冲 。 对 于 爆破 音 , 脉 冲 对 的 幅度 增 大 ,与 语音 的 突变 成 正比 。 有 采用 混合 激 
励 可 以 使 原来 二 元 激励 合成 引起 的 金属 声 . 重 击 声音 调 噪 声 等 得 到 改善 。 

(2) 采用 激励 脉冲 加 拌 动 (Jittler) 的 方式 。 将 基 首 相关 性 不 是 很 强 或 残 差 信号 中 有 大 
的 峰值 的 语音 帧 判定 为 抖动 的 浊音 帧 。 除 采用 脉冲 加 噪声 的 混合 激励 外 ,激励 信号 中 的 周 
期 脉冲 的 相位 要 做 随机 地 拌 动 , 即 对 每 个 基 音 周期 的 长 度 乘 上 一 个 0.75 一 1. 25 之 间 均 匀 分 
布 的 随机 数 , 这 样 可 以 改善 语音 的 自然 度 。 

(3) 采用 单 脉冲 与 码 本 相 结 合 的 激励 模式 。 可 取 多 脉冲 激励 线性 预测 编码 与 码 本 激励 
线性 预测 编码 各 上 月 的 长 处 ,对 不 同 的 语音 段 采 用 不 同 的 油 励 模式 。 对 于 具有 周期 性 的 语音 
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段 用 以 基 音 周期 重复 的 单 脉 冲 作 为 激励 源 , 非 周期 性 语音 段 用 从 码 本 中 选择 的 随机 序列 作 
为 激励 源 。 

2) 改进 基 音 提取 方法 

计算 线性 预测 残 差 信号 或 者 语音 信和 号 的 和 目 相 关 图 数 , 并 利用 动态 规划 的 平 请 算法 来 更 
准确 地 提取 基 音 周期 。 将 该 帧 的 线性 预测 残 差 信号 低 通 滤波 后 , 求 出 所 有 可 能 的 基 音 时 延 
点 上 的 归 一 化 日 相关 系数 , 选 出 其 中 工 个 最 大 值 ,再 用 相 邻 3 帧 的 每 帧 世 个 最 大 值 , 用 动态 
规划 算法 求 得 最 佳 基 音 值 。 

3) 选择 线 谱 对 参数 LSP 作为 声 道 滤波 器 的 量化 参数 


5.2.2 基于 全 极点 语音 产生 模型 的 混合 编码 


经 过 几 十 年 的 研究 ,人 们 已 经 认识 到 ,导致 LPC 声 码 需 性 能 差 的 原因 不 在 于 声 道 模型 
本 生 , 而 在 于 对 激励 信号 的 表示 过 于 简化。 多 年 来 一 十 被 广泛 采用 的 ,使 用 准 周 期 性 脉冲 或 
日 噪声 作为 激励 源 的 方法 ,是 进一步 提高 场 音 质量 的 障碍 。 基 于 这 种 认识 ,20 世纪 80 年 代 
以 来 ,人 们 提出 了 一 系列 高 音质 的 混合 编码 算法 ,例如 多 脉冲 激励 线性 预测 声 码 硕 、 规 则 脉 
冲 激励 线性 预测 声 码 器 、 码 激励 线性 预测 声 码 器 等 。 这 些 混合 编码 算法 在 保留 原 有 声 道 模 
型 假定 的 基础 上 ,引入 高 质量 的 波形 编码 准则 来 优化 激励 信号 。 以 感觉 加 权 均 方 误差 最 小 
为 判决 准则 ,采用 闭环 搜索 的 方法 一 一 合成 分 析 法 (Canalysis-by-synthesis,ABS) 来 选取 最 佳 
激励 矢量 ,以 得 到 最 佳 逼 近 原 始 语音 的 效果 。 

上 文 所 列举 的 这 三 种 编码 都 是 基于 全 极点 语音 产生 模型 假定 的 ,编码 过 程 可 以 简 述 如 
下 : 痛 先 通过 线性 预测 分 析 方 法 提取 声 道 滤波 副 参 数 ; 然后 通过 合成 分 析 的 方法 确定 最 佳 
激励 矢量 ; 最 后 将 滤波 需 参 数 和 最 佳 激 励 矢 量 进行 编码 传输 。 有 时 也 将 它们 统称 为 基于 合 
成 分 析 法 的 线性 预测 编码 硕 (ABS-LPC)。 本 市 首先 将 这 类 混合 编码 实现 过 程 中 所 采用 的 
主要 分 析 方 法 做 简要 介绍 ,如 : 语音 产生 模型 、 合 成 分 析 法 、 感 觉 加 权 均 方 误 差 最 小 准则 。 
然后 分 别 介绍 上 文 所 列举 的 这 三 种 编码 算法 。 

1. 主要 分 析 方 法 

1) 计 入 长 时 相关 性 的 语 首 产生 模型 

上 一 节 讨 论 过 语音 中 有 两 种 类 型 的 相关 性 , 即 在 样本 点 之 间 的 短 时 相关 性 和 相 邻 基 音 
周期 之 间 的 长 时 相关 性 。 对 语音 信号 用 线性 预测 的 方法 分 别 进行 这 两 种 相关 性 的 去 相关 处 
理 后 ,可 以 得 到 更 加 平坦 的 预测 残 差 信号 ,因而 更 加 有 利于 进行 量化 编码 。 对 应 地 ,同时 考 
虚 这 两 种 相关 性 的 语音 产 生 模型 如 图 5-19 所 示 。 


图 5-19 计 入 长 时 相关 性 的 语 首 产生 模型 


在 模型 中 , 油 励 信号 首先 输入 长 时 预测 综合 滤波 各 1/P(z), 骨 将 其 输出 作为 短 时 预测 
综合 滤波 需 1/A(z) 的 输入 ,在 输出 端 得 到 合成 语音 。 
长 时 预测 综合 滤波 右 1/P(z) 是 表示 语音 信号 长 时 相关 性 的 模型 。 它 的 一 般 形式 为 


1/P(z) = 1 一 py Pad C21 


式 中 , 延 时 参数 D 等 于 基 音 周期 , {6b;} 是 语音 信号 的 长 时 预测 系数 。 
通常 长 时 预测 系数 的 个 数 取 在 1(g==r==0) 到 3(g= 二 r= 二 1) 之 则 。 前 文中 的 式 (5-13) 就 
是 一 阶 预测 更 的 情况 。 延 时 参数 D 和 系数 (5;} 可 以 从 语音 信号 中 提取 ,也 可 以 从 去 除了 短 
时 相关 性 所 得 到 的 余 量 信号 中 提取 。 语 音信 号 的 长 时 相关 性 反映 了 谱 的 精细 结构 。 
短 时 预测 综合 滤波 器 1/A(z) 与 语音 信号 短 时 相关 的 模型 相对 应 ,可 以 用 一 个 全 极点 模 
型 来 摘 述 , 它 的 传输 函数 电 (z) 为 
H(z) = 1/A(z) = 中 Daa” (5-22) 


式 中 ,{a;} 是 语音 信号 的 短 时 预测 系数 ; p 是 滤波 器 阶 数 。 
一 般 称 豆 (z) 为 线性 预测 综合 滤波 器 ,A(z) 为 线性 预测 分 析 滤 波 器 或 逆 滤 波 器 ,同时 将 


古 
Q(z) 二 》az7 称 为 p 阶 预测 器 。 短 时 相关 性 反映 了 语音 信号 谱 包 络 信息 。 
i 二 ] 


编码 时 ,对 语音 信号 用 线性 预测 分 析 的 方法 求 取 短 时 和 长 时 预测 系数 后 ,构造 短 时 和 长 
时 线性 预测 逆 滤 流利 A(z) 和 PCz) ,并 将 语音 信号 输入 滤波 天 A(z) 和 P(z) ,去除 信号 中 的 
短 时 .长 时 相关 性 ,在 其 输出 病 就 可 得 到 类 似 于 史 声 的 波形 , 即 线性 预测 残 差 信号 。 虽 然 在 
残 差 信 号 中 浊音 段 可 能 还 存在 硅 干 尖峰 脉冲 ,但 是 与 原 语 首 信 号 相 比 要 平坦 得 多 ,因此 , 编 
码 时 可 以 得 到 比较 低 的 编码 速率 。 如 果 用 预测 残 差 信号 作为 激励 信号 , 则 一 定 可 以 在 语音 
产生 模型 上 得 到 无 失真 的 合成 语音 。 但 在 事实 上 ,从 压缩 数码 率 的 角度 来 说 ,用 残 差 作为 激 
励 信号 进行 声音 编码 是 不 现实 的 。 必 须 采 用 某 种 技术 ,以 较 低 的 速率 ,有 殖 地 精确 地 对 预测 
残 差 信 号 进行 压缩 编码 ,这 也 是 ABS-LPC 编码 器 中 的 核心 问题 。 

根据 具体 编码 方案 的 需要 ,也 可 以 只 进行 短 时 预测 ,不 进行 长 时 预测 ,而 在 LPC 激励 模 
型 中 引入 语音 的 长 时 相关 性 。 

2) 合成 分 析 法 

近 几 年 来 ,人 们 在 LPC 算法 的 基础 上 ,对 16Kbps 以 下 的 高 质量 语音 编码 技术 进行 了 
广泛 深入 的 研究 和 实践 。 在 此 速率 下 ,能 用 于 残 差 信 号 编码 的 比特 数 比 较 少 。 夺 对 残 差 信 
号 进行 直接 的 量化 ,并 且 使 残 差 信 号 的 量化 误差 达到 最 小 ,并 不 能 保证 原始 语音 与 重建 语音 
之 间 误 差 最 小 。 必 人 须 采用 合成 分 析 的 方法 ,以 得 到 的 重建 语音 能 够 最 接近 原始 语音 为 目的 ， 
闭环 搜索 残 差 信 号 的 编 公 量化 值 。 

基于 全 极点 语音 产生 模型 的 语音 编 解码 算法 ,总 是 通过 解码 得 到 LPC 系数 ,以 构造 综 
合 滤 波 希 , 按 一 定 的 规则 生成 激励 信号 ,并 将 激励 信号 输入 到 综合 滤波 需 来 合成 重 构 声音 。 
这 一 功能 部 件 帝 被 称 为 综合 毅 。 而 合成 分 析 法 将 综合 滤波 需 引 入 到 编码 融 中 ,使 之 与 分 析 
右 相 结合 ,将 搜索 到 的 每 一 残 差 信 号 的 编码 量化 值 作为 激励 ,通过 综合 滤波 器 在 编码 器 中 产 
生 与 解码 器 端 完全 一 致 的 合成 语音 ,将 此 合成 语音 与 原始 语 首相 比较 ,按照 一 定 的 误差 准则 
计算 两 者 之 间 的 误差 ,选择 使 误差 最 小 的 参数 作为 激励 编码 值 。 

3) 感觉 加 权 滤 波 疾 (perceptually weighted filter) 

感觉 加 权 滤 波 器 的 依据 是 人 和 耳 的 听觉 掩蔽 效应 。 在 语音 频谱 中 能 量 较 高 的 频段 , 即 共 
振 峰 处 的 噪声 相对 于 能 量 较 低频 段 的 噪声 而 言 更 不 易 被 感知 。 因 此 ,在 度量 原始 语音 与 合 
成 语音 之 间 的 误差 时 可 以 计 人 这 一 因素 ,在 语音 能 量 高 的 频段 ,允许 两 者 的 误差 大 一 些 , 反 
之 则 小 一 些 。 为 此 可 以 引入 一 个 频 域 感 党 加 权 滤 波兰 M(Co) 来 计算 两 者 的 误差 , 即 
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于 = 后 | zol) 一 工 (w) | M(Cw)dow (5-23) 


式 中 ,ff 是 来 样 率 ,w, 二 2xfs; XT(w) ,xX (w) 分 别 是 原 妈 语音 与 合成 语 首 的 傅 里 叶 变 换 ， 

不 难 证 明 ,为 使 e 达到 最 小 值 ,|x(w) 一 TC(w)|*M(w) 在 整个 积分 域内 应 保持 常数 值 。 
因此 ,在 语音 能 量 较 大 的 语音 频段 内 应 使 M(w) 较 小 ,在 能 量 较 小 的 频段 内 使 M(w) 较 大 ,这 
就 能 拾 高 前 者 的 误差 能 量 , 而 降低 后 者 的 误差 能 量 , 为 此 可 取 的 感觉 加 权 滤 波 右 M(w) 在 > 
域 的 表达 式 M(z) 为 

| 水 


Po 和 

pb 

一 Pa 
E 一] 


感 筑 加 权 滤 波 表 的 特性 由 预测 系数 4ei} 和 加 权 因 于 Y 来 确定 。y 取信 在 0 一 1 之 间 , 由 
它 控 制 共 振 峰 区 域 误 差 的 增加 和 减少 。 以 两 个 极端 情况 为 例 , 当 Y==1 时 ,M(xz) 二 1, 此 时 没 


(5-24) 


pp 
有 进行 感觉 加 权 , 当 7y=0 时, M(z) = 1 一 > 它 等 于 语音 的 户 阶 全 极点 模型 谱 的 倒 


一 ] 


数 。 由 此 得 到 的 曲 声 频 请 量 分 布 与 语音 频谱 普 的 能 量 分 布 是 一 致 的 。 显 而 匈 见 ,MKCz) 的 作 
po 的 洪 椒 再 尘 折 ， 而 有 着 与 墙 音信 号 谐 具 有 相似 的 包 络 形状 。 这 就 使 

导 误 差 上 度量 的 优化 过 程 写 感觉 上 的 共振 峰 对 误差 的 掩 珊 效应 相 吻 合 , 产 生 较 好 的 主观 听觉 
ei 实际 上 取 yx 一 0 时 听 音 效果 并 不 很 好 ,其 原因 是 人 和 耳 对 语音 的 共振 峰 更 敏感 ,相应 地 
对 其 信和 噪 比 要 求 也 更 蜗 一 些 , 实 际 听 首 的 结 来 表明 : 在 8kHz 采样 频率 下 ,Y 取 0. 8 左右 较 
为 适宜 。 将 感觉 加 权 滤 波 带 M(xz) 与 滤波 冀 卫 (xz) 级 联 , 即 获得 加 权 综 合 滤波 右 也 (z/7) 为 


p 


| > a 


1 ei 1 
| Da ] 一 2 | Me Dy ay | 
随 看 7 的 减 小 ,H(z/7) 的 频 详 中 的 各 共振 峰 的 市 宪 相 应 加 大 。 因此 , 玉 (z/ 罗 有 时 又 称 为 频 
市 扩展 滤波 间或 称 为 误差 整形 滤波 磊 。 硅 卫 (z) 的 冲 激 啊 应 为 hO2), 则 斑 (z/7) 的 冲 油 啊 应 
"htm. 

2. 多 脉冲 激励 线性 预测 声 码 尼 

人 们 对 线性 预测 残 差 信 号 进行 深入 人 研究 后 发 现 , 残 差 信号 中 的 小 信号 对 合成 语音 的 质 
pp 如 于 对 残 差 信 号 进行 前 波 处 理 , 即 将 幅度 低 于 茶 一 国 值 的 所 有 信号 篆 置 为 堆 。 

这 样 只 当 调 整 国 值 就 可 以 使 残 差 信号 中 90% 的 样 点 值 为 等 ,用 余下 的 幅度 较 大 的 信号 

作为 语 pipe eth 源 , 其 合成 语音 并 未 产生 明显 的 畸变 。1982 年 , Bishnu 
S. Atal 和 Joel R，Remde 提出 了 多 脉冲 线性 预测 编码 Cmulti-pulse linear predictive 
coding, MPLPC) 方 案 。 在 此 方案 中 ,首先 规定 激励 胀 冲 序列 在 一 定 的 时 间 间 隔 中 只 能 出 现 
数目 有 限 的 非 堆 脉冲 ,然后 对 每 个 非 过 脉冲 的 位 置 和 幅度 用 合成 分 析 法 和 感 筑 加 权 误 差 最 
小 判决 准则 进行 优化 ; 最 后 用 优化 的 脉冲 序列 表示 残 差 信号 ,并 作为 合成 滤波 需 的 激励 源 。 

图 5-20 为 多 胀 冲 激 励 线 性 预测 声 码 间 的 原理 框图 。 在 MPLPC 中 ,不 再 提取 基 音 和 进 
行 清 浊 判 决 ,原始 语音 信号 X72) 以 帆 为 单位 进行 处 理 , 帆 长 通常 取 10 一 20ms。 对 每 帧 原始 
语音 ,首先 来 用 线性 预测 分 析 方 法 计算 出 预测 系数 {a;}; 然后 在 当前 帧 范围 内 每 5ms 或 


H(z/Y) = H(z)M(z) = (5-25) 
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10ms 用 合成 分 析 法 佑 计 出 一 组 激励 脉冲 的 幅度 和 位 置 ,将 其 输入 合成 天 (虚线 框 内 的 部 分 ) 
得 到 合成 语音 过 (人 2) ,再 将 合成 请 音 过 (2z) 与 原始 语音 zz) 相 减 并 输入 感觉 加 权 涯 波 天 
M(z) ,得 到 加 权 误 差 信 号 e,,(n); 最 后 根据 最 小 均 方 误差 准则 ,分 析 舍 计 出 一 组 脉冲 位 置 及 
幅度 最 佳 的 激励 脉冲 ,与 线性 预测 参数 一 起 编码 送 入 信道 。 


Ne | 
Te 
综合 | 30)Ch) 一 | 感觉 加 权 | 多 脉冲 信息 | 流 有 
e,(n) 滤波 顷 发 后 器 


i 
za | 均 方 误差 最 小 估 值 |” aa 


(a) 网 码 融 (b) 艇 码 奋 
图 5-20 多 脉冲 激励 线性 预测 声 码 兹 的 原理 框图 


x(n) 输 出 


MPLPC 的 关键 问题 是 如 何 求 出 KK 个 脉 串 的 位 置 和 幅 值 ,使 合成 语音 与 原始 语音 的 感 
觉 加 权 均 方差 误差 最 小 。 设 帧 长 为 N,K 个 脉冲 的 位 置 和 幅 值 分 别 为 n,n2，… ,nx 和 gi， 
gz,…,gk。 将 这 KK 个 脉冲 形成 的 序列 作为 激励 信号 输入 到 LPC 综合 滤波 器 H(z) = 
一 , 得 到 合成 语音 去 (2) 。 当 前 帧 的 去 (z) 由 两 部 分 组 成 : 一 部 分 是 LPC 综合 滤波 
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器 的 零 输 入 响应 (mn) , 它 是 在 当前 帧 不 输入 激励 信号 时 ,用 以 前 各 帧 所 有 激励 信号 在 合成 
器 及 (x) 中 存储 的 记忆 值 在 当前 帧 产生 的 输出 。 在 做 逐 帧 分 析 时 ,当前 帧 的 Zo (xn) 为 已 知 ; 
另 一 部 分 是 LPC 综合 滤波 器 五 (z) 的 零 状态 响应 , 即 在 当前 帧 激励 信号 与 太 (z) 的 冲 激 响 
应 h(n) 的 郑 积 。 这 样 合成 语音 (mn) 可 以 表示 为 


K 
X(Nn) = xXo(n) 十 gih 一 (5-26) 


上 二 1 


合成 语 首 xX (n) 与 原始 语 首 XxX) 的 误差 e,(n) 为 


K K 
pen = RC = CC > gih (n— ne = (RC Dgih (rmi — Ne) 


pF k=1 

人 

式 中 ,e GD 一 zz) 一 Eo(02) 表 示 输 入 的 原始 语 音 减 去 去 输入 啊 应 , 即 当 前 帧 内 除去 合成 融 中 

由 历史 记忆 造成 的 输出 后 的 等 效 语 音 。 将 e.(z) 输 入 到 感觉 加 权 滤 波 器 M(z), 其 输出 
em (7) 为 e(n) 和 感觉 加 权 滤 波 带 冲 激 啊 应 mx(7) 的 着 积 , 即 

区 《NY = Be 一 i 一 | x m(n) = e,(n) 一 i —7) (5-28) 


式 中 ,e (nn) 表示 原始 请 首 信号 中 际 挥 零 输入 啊 应 的 等 效 请 首 与 m(n) 的 着 积 ,h,(n) 是 加 权 
综合 滤波 表 有 (z/7) 的 冲 激 啊 应 , 感 先 加权 均 方 误差 玉 为 


N NN K 2 
| 一 SE (Cn) = > 世 (n) 一 es 一) (5-29) 


如 二 ] nn 二 1] 二 1] 
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激励 脉冲 的 位 置 与 幅度 的 选择 是 使 已 最 小 。 为 了 求 取 激 励 脉冲 的 最 佳 位 置 { 改 } 和 最 佳 幅 
度 {g;) ,对 巨 求 偏 导数 ,并 使 之 等 于 0, 因此 有 


a (5-30) 
9n; 

oF ; 

人 一 和 ， 了 人 ] ,…。 ,KK (5-3]1) 
Bj 


这 样 就 能 得 到 2K 个 方程 ,由 式 (5-30) 得 到 K 个 非 线 性 方程 ,而 由 式 (5-31) 得 到 K 个 线性 
方程 ,它们 是 


kk 
SR sn) = Ratn;),s 1 = 1,°,K (9-3 ) 
二 1 
式 中 ， 
MN 
Ru (n;) = 六 一 a 
n= 1] 
中 
Kr Cn » 1;) 一 pd (i 7 二 机 一审 (5-34) 
上 二 1 


当 {n) (ee (CR 一 1,…，M) 满 足 上 述 方程 时 ,将 式 (5-33) 和 和 式 (5-34) 代 人 式 (65-29) ,得 
到 当前 帧 最 小 加 权 均 方 误差 为 


nin = 2 [es GF — >, grRa Cm) (5-35) 
由 于 式 (5-32) 只 包含 KK 个 方程 ,不 可 能 求 出 2K 个 未 知 数 ,要 求 出 对 应 于 Ewin 的 {ns} 和 
{gr} {k=1,", RK} 参数 ,需要 同时 解 K 个 线性 方程 和 个 非 线 性 方程 ,这 一 过 程 是 极其 复 
杂 的 ,考虑 其 实用 性 ,可 采用 次 优 搜索 算法 , 即 用 依次 对 每 个 激励 脉冲 的 位 置 和 幅度 的 顺序 
优化 代 蔡 全面 搜 索 的 总 体 优化 ,这 样 可 以 大 大 人 简化 计算 复杂 度 。 这 种 方法 被 称 为 准 最 优 顺 
序 优化 激励 参数 估 值 法 。 
设 mm gil 分 别 是 第 一 个 最 优 激 励 的 位 置 和 幅度 ,它们 满足 式 (5-32) 和 式 (5-35), 即 


gi1 Rt (nm eM 二 Rs, (ni) (5-36) 
N 

min 3 六 Le. (mn) gi1R en (m1 ) (5-37) 
n 二 1] 


将 式 (5-36) 代 入 式 (5-37) 可 得 
~ FT 民 2 (m1) a 
= 之 [en GF — RC (5-38) 
由 于 e ,. (2) 为 固定 的 已 知 数 , 要 在 当前 帧 内 搜索 第 一 个 激励 脉冲 的 最 佳 位 置 mm ,只 要 搜 
过 到 Ew; 即 只 要 搜索 到 使 下 式 取 得 最 大 值 的 ni 即 可 。 
R3 (m1) | Pe 
Rs (ni ss (9739) 
然后 再 确定 最 佳 幅 度 | , 忆 


wm Ra (ni) 
a Rrn (ni st 


如 果 已 逐个 找到 j 一 1 个 激励 脉冲 的 最 优 位 置 和 幅度 , 现 要 找 第 j 个 激励 脉冲 的 最 优 位 
置 n; 和 最 住 幅 值 gj; , 它 应 满足 式 (5-36) 和 式 (5-37), 即 


(v-40) 
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giRimn (nn; 7;) = Ra (in,) (5- 生 1) 
NN 

i = 2 [sR (5-42) 
nn 二 1 


同样 ,将 式 (5-41) 代 入 式 (5-42) 可 得 : 
(C71;) | 
ey 
=- [em Cm) | a i 


式 中 ,e,j(n) 表 示 在 输入 的 原始 语 首 中 ,扣除 了 第 j 个 以 前 的 所 有 激励 脉冲 所 产生 合成 语 
音 的 份额 后 的 结果 。 起 始 条 件 为 go 二 0,e wo0(n) 二 Xm (1) 一 m0 (nN) ,Xmo (nn) 是 当前 帆 还 未 
搜索 出 任何 激励 脉冲 时 ,以 前 所 有 激励 信号 影 啊 下 所 产生 的 了 瑟 (z/7) 的 输出 。 在 搜索 第 j 个 
激励 脉冲 时 ,e;,; (nw) 是 已 知 的 。 在 顺序 求 各 个 激励 脉冲 时 , 它 由 下 面 的 迭代 公式 更 新 : 

en (和 一 ems lm C— gsihas (nO— ns 1 = 1,°",K (5-44) 
式 中 ,nj-1 和 gj-1 分 别 是 在 第 j 一 1 次 搜索 中 得 到 的 第 j 一 1 个 激励 脉冲 的 最 优 位 置 和 最 优 
幅 值 。 相 应 地 在 每 次 搜索 中 Ka (nj) 的 里 新 公式 为 


NN 
Ra (nn) = 2) en ha no—n) (5-45) 


| 


由 于 e wj (7n) 为 固定 的 已 知 数 ,要 在 当前 帆 内 搜 过 第 j 个 激励 脉冲 的 最 优 位 置 nj; ,只 要 
搜索 到 Ess, 即 只 要 搜索 到 下 式 取 最 大 值 时 的 nj; 即 可 : 


Re Cn;) 
ee (5-46) 

然后 再 确定 最 佳 幅度 g;， 
Ce (汪汪 了 


6 et 
在 此 搜索 方案 中 ,对 于 一 帆 内 天 个 激励 脉冲 需要 做 天 次 搜索 迭代 ,虽然 可 以 方便 地 得 
到 多 脉冲 激励 中 脉冲 较 优 的 位 置 和 幅度 ,但 它 不 是 全 局 最 优 的 ,因此 估 值 中 会 出 现 一 些 问 
吓 , 应 采取 相应 的 措施 来 避免 或 殉 服 。 
MPLPC 合成 的 声音 有 较 好 的 上 月 然 度 ,这 种 编码 方法 能 保证 一 年 的 抗 噪 能力。 但 其 最 
大 的 缺点 是 ,即使 了 采取 了 准 最 优 顺 友 优 化 激励 参数 佑 值 方法 ,分 析 时 的 运算 量 仍然 很 大 ,这 
使 它 难以 实时 实现 ,因此 也 很 难 推广 应 用 。 目 前 还 没有 见 到 采用 这 种 算法 的 商用 声 码 如 或 
标准 。 
3. 规则 脉冲 激励 线性 预测 声 码 希 
规则 脉冲 激励 线性 预测 再 人 码 盘 (regular pulse excitation linear predictive coding， 
RPELPC) 是 由 Ed. FF. Deprettere 和 Peter Kroon 在 1985 年 提出 的 ,其 编码 思想 与 MPLPC 
很 相似 ,但 更 实用 。RPELPC 用 一 组 间距 一 定 的 非 堆 规 则 脉冲 代 蔡 残 差 信号 ,该 脉冲 序列 
的 相位 ( 即 第 一 个 非 去 脉 冲 出 现 的 位 置 ) 和 每 个 非 堆 脉冲 的 幅度 可 以 按照 MPLPC 同样 的 方 
法 进行 优化 。 因 为 各 个 非 去 脉冲 的 相互 位 置 是 固定 的 ,所 以 它 的 计算 量 和 编码 速率 与 
MPLPC 本 导 多 。 图 5-21 为 规则 脉冲 激励 线性 预测 声 码 带 的 原理 框图 。 
语音 信号 首先 经 过 户 阶 LPC 逆 滤 波 紫 A(z) 之 后 得 到 残 差 信 号 rn) ,将 rln) 和 激励 信 
号 v(n) 的 差 输入 到 怀 沉 加权 滤波 一 ,可 车 滤波 副 的 输出 就 应 该 是 感觉 加 权 误 差 e(n)。 通 过 
调整 激励 信号 vn) ,可 以 使 el(n) 在 一 定 光 围 内 取得 平方 和 最 小 。 
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原始 语音 


迟 XxX(n) 


LPC 综 合 
滤波 器 Er 
久 本 出 xX(n) 


| 


(a) 网 码 硼 (b) 解码 硕 
图 5-21 规则 脉冲 激励 线性 预测 声 码 此 的 原理 框图 


编 但 时 将 一 帧 请 音 激励 信号 分 为 在 干 个 子 帧 ,用 世 表示 激 励 子 帧 的 长 度 。8kHz 采样 
率 时 ,L 的 典型 值 是 40 个 样 点 ,相当 于 5ms。 在 每 个 激励 子 帧 内 ,都 采用 间 隐 相同 的 规则 脉 
冲 串 作为 激励 信号 。 当 脉冲 间 隅 确定 时 ,脉冲 串 所 能 采用 的 模式 种 类 就 应 该 是 确定 的 ,规则 
脉冲 串 的 模式 按照 脉冲 串 的 相位 , 即 第 一 个 非 零 脉冲 出 现 的 位 置 来 区 分 。 当 脉冲 间 隐 为 
R 一 1 个 样 扣 时 ,脉冲 串 的 模式 最 多 为 R 种 。 同 理 串 中 非 等 脉冲 的 数量 Q 也 可 以 确定 Q= 

RR。 一 种 规则 脉冲 串 的 模式 可 以 由 位 置 脉冲 窍 阵 (QXL) 来 表示 , 设 Bi 是 相位 为 的 规则 
脉冲 友 列 的 位 置 脉冲 矩阵 , 短 阵 元 系 和 站 可 表示 为 


] ， 和 一 
b= (5-48) 
I 


而 在 相位 为 & 的 规则 脉冲 序列 中 ,Q 个 非 零 脉冲 的 幅度 可 用 行 矢量 g 表示 为 
一 (5-49) 

将 : 六 -个 天 量 ,每 一 个 采样 点 为 天 量 中 的 一 维 。 则 工 维 激励 

矢量 v2 可 表示 为 
D gna BB, (50) 

设 M 是 感觉 加 权 滤 波 器 M(z) 的 冲 激 啊 应 矩阵 ,这 是 一 个 LXL 的 上 三 角 和 矩阵 。 它 的 
第 j 行 由 M(z) 对 单位 冲 激 5(n 一 丫 的 啊 应 取 前 上 L 一 j 项 组 成 ,j= 二 0,1,…,(L 一 1)。M 和 扼 
阵 为 

nO mm) mL OOo) 
0 i 一 2 z 
M=| . (5-51) 
U U we m(0) 

如 果 用 eo。 表示 M(z) 的 零 输 入 啊 应 矢量 ,r 表示 当前 激励 子 帧 的 线性 预测 残 差 信号 
-~(72) 形 成 的 天 量 ,将 与 第 & 个 相位 激励 天 量 v” 的 差 输 入 到 感觉 加 权 滤 波 副 M(xz), 得 到 
相应 的 输出 感觉 加 权 误 差 e” 为 

本 (5-52) 


式 中 : 
e'0 一 让 MT 十 en K-53) 
AT， B, . M (5-54) 
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优化 过 程 的 第 一 步 就 是 求 g* ,使 e* 中 各 分 量 的 平方 和 E* 最 小 。E™* 可 表示 为 
FE'® 二 二 pt onl (5-55) 
下 面 首先 要 解决 的 问题 是 ; 当 LQ 和 都 固定 时 ,优化 激励 脉冲 非 零 值 的 幅度 使 E* 
最 小 ,将 式 (5-52) 代 入 式 (5-55) 并 展开 ,有 
FE 3 | 8 gs” NT JLe'™ ges gs” M,] 


一 EtO et0 nd, Fe _ eg Fi 二 go "MMig®e (5-56) 
为 求 幅度 矢量 g“ 中 的 第 i 个 分 量 的 最 佳 幅度 gg (2),(i 二 0,…,Q 一 1), 将 式 (5-56) 两 边 对 
sg ”(i 求 寻 ,得 
oF dg i 9) Sa i i i et 
gH dg en a 
dpe" (0) Ck) T C0) Ck) dg 
了 gC Je te 一 8 MAN) 一 Le ”一 8 MM: ago (7) (5-597) 
将 式 (5-52) 代 入 上 式 得 到 
日 下 4 dg™ de 
" Me TT ew MI ' 
dg [2 dg (i) EC 上 k dg ) 
: Es 可 站 了 下 
TDAT "8 RAAT oF _ 
[e Mi je | e MY Fn) (5-58) 
aF® 
ey . 一 则 有 
(k) MAT 9g* (Kk) dg 6 A 
[e MT | 十 e Mi i 二 0 (5 9599) 
dg a 
由 于 eM 小 入 是 一 个 标量 , 式 (5-59) 可 写 为 
PR 
2@°® Mi 5 一 (5-00) 
考虑 到 -8 2 ~—|[0y*™*,0s ] 0,… 0 ,因此 有 
gg (1) 第 ;位 
i Pe (5-61) 
将 式 (5-52) 代 入 式 (5-61) ,得 到 
[le”“—g®*M,|IMi=0 (5-62) 
当 MM 可 逆 时 ,得 到 相位 为 & 的 激励 胀 冲 友 列 的 最 佳 激 励 幅 度 和 失 量 g“ 
BS = BC (5-63) 


将 式 (5-63) 代 入 式 (5-56), 求 出 相位 为 & 的 序列 的 最 佳 激励 矢量 v% 引起 的 误差 E* 
E®= eve To ed MMMI) Me™ — eMiLe® MMMI) J 
十 eOOMT(OMNMT)-1M MTLe MTCOMMT)- 
= e0[LT 一 MTICOMMT)-INM ec 

使 E* 最 小 的 & 就 是 最 佳 激励 的 模式 号 , 它 所 对 应 的 激励 信号 vo* 就 是 最 佳 激 励 信 号 。 
是 由 式 (5-50) 计 算出 来 的 。 

从 上 述 过 程 可 以 看 出 ,最 佳 激励 信号 vo 是 由 相位 信息 和 幅度 矢量 g“” 决定 的 ,如 
式 (5-63) 所 示 ,整个 过 程 包含 了 R 个 线性 方程 组 的 求解 ,这 种 线性 方程 组 有 多 种 快速 的 解 
法 ,因此 ,RPELPC 的 计算 复杂 度 要 比 MPLPC 小 得 多 。 
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RPELPC 算法 也 可 以 增加 长 时 预测 机 制 来 改善 算法 性 能 。 一 种 比特 率 为 13Kbps 的 长 
时 预测 RPELPC 算法 ,已 被 欧洲 电信 标准 协会 (ETSDI) 的 全 球 移动 通信 (GSMI) 分 会 定 为 其 
第 一 个 TDMA 数字 蜂 需 电话 标准 。 

4. 码 激 励 线性 预测 声 码 咽 

MPLPC 算法 和 REPLPC 算法 虽然 元 服 了 基 首 检测 和 清 浊 判决 不 精确 导致 的 编码 质 
量 下 降 的 问题 ,但 是 这 两 种 算法 表示 激励 脉冲 所 需要 的 比特 数 很 难 进 一 步 床 峭 , 当 总 的 数 但 
率 低 于 8Kbps 时 , 语 首 质量 急剧 下 降 。 这 就 使 其 应 用 沁 围 受到 很 大 限制 。1985 年 ， 
Manfred R. Schroeder 和 Bishnus S. Atal 提出 了 用 矢量 量化 (VQ) 技 术 对 激励 信号 进行 编 
码 ,VQ 码 本 中 每 一 个 存储 的 码 字 矢量 都 可 以 代替 残 差 信 号 作为 可 能 的 激励 信号 源 。 在 编 
但 时 对 码 本 中 码 天 量 逐 个 搜索 ,找到 能 产生 与 输入 霹 音 放 差 最 小 的 合成 培 音 的 激励 码 天 量 。 
只 要 将 该 码 天 量 的 标号 传送 给 接收 端 , 在 接收 奖 用 储存 的 同样 的 码 本 ,就 能 根据 收 到 的 标号 
找到 相应 的 人 码 矢量 作为 激励 。 将 这 样 的 编码 系统 , 称 为 码 激 励 线 性 预测 编码 (code excited 
linear predictive coding,CELP)。CELP 在 4.8 一 16Kbps 的 范 于 内 可 以 获得 质量 相当 高 的 
合成 声音 ,并且 抗 品 性 能 和 多 次 转 接 的 性 能 也 很 好 。 

CELP 及 用 分 帆 扩 术 进行 编码 , 帧 长 一 般 为 20 一 30ms ,将 每 一 语音 帧 分 成 2 一 5 个 于 
概 ,在 每 个 子 帆 内 搜索 最 佳 的 码 矢量 作为 激励 信号 。 图 5-22 为 CELP 编码 示意 图 。 图 中 虚 
线 框 内 是 CELP 综合 器 , 它 也 是 CELP 解码 器 中 的 最 主要 功能 部 件 。 


感觉 加 权 


e(1) 


均 方 误差 最 小 估 值 
最 佳 码 本 搜索 
5-22 ”CELP 编码 器 示意 图 


CELP 一 般 部 采用 分 阶段 量化 的 方法 将 码 本 划分 成 两 个 ,一 个 称 为 上 日 适应 码 本 ,其 码 矢 
量 通 近 请 音 的 长 时 周期 性 ( 基 音 ) 绪 构 。 兄 一 个 称 为 固定 码 本 ,其 天 量 为 随机 激励 ,对 应 请 音 
经 过 短 时 预测 和 长 时 预测 后 的 残 差 信号 。 当 生成 激励 信号 时 ,首先 搜索 确定 日 适应 码 本 矢 
量 ,然后 再 搜 逐 确 定 固 定 公 本 矢量 。 在 搜索 固定 人 码 本 时 ,必须 考虑 肯 适 应 人 码 本 矢量 的 啊 应 分 
量 。 两 个 码 本 矢量 乘 以 各 目的 最 佳 增 益 后 相 加 ,其 和 就 是 CELP 激励 信号 源 。 由 于 两 个 码 
本 的 尺寸 远 小 于 未 米 用 基 首 预测 (日 适应 公 本 ) 的 单 码 本 尺寸 ,因此 搜索 效率 将 大 大 提 融 。 
将 激励 信号 输入 p 阶 线性 预测 综合 滤波 器 1/A(z) ,得 到 合成 语音 信号 x (n) ,再 将 x (n) 与 原 
始 语 音 zz) 的 误 善 经 过 感觉 加 权 滤 波 天 M(z) ,得 到 感光 加 权 误 差 e(n)。CELP 用 感觉 加 
权 的 最 小 均 方 预测 误差 作为 搜索 最 佳 码 矢量 及 其 幅度 的 度量 准则 ,使 感觉 加 权 误 差 的 平方 
和 最 小 的 码 和 天 量 即 是 最 佳 码 矢量 。 
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设 一 个 子 帧 内 的 信号 为 一 个 矢量 , 则 输入 语音 和 拓 量 可 表示 为 x==[x(0),zxz(1),…， 
ZX(L 一 1)]' ,激励 矢量 表示 为 e 二 [e(0),e(1),…,e(L 一 1)]',L 为 子 帧 的 长 度 。 
令 C,” 为 标号 为 r 的 日 适应 码 矢 量 , 相 应 的 增益 因子 为 4”; Cs 为 标号 为 g 的 固定 码 
矢量 ,相应 的 增益 因子 为 4 。 则 激励 信号 可 表示 为 
人 (5-65) 
搜索 目 适 应 人 码 本 ,对 所 有 的 矢量 计算 其 重 构 信号 ,每 个 天 量 必 须 在 同样 的 初始 状态 , 即 
同样 的 堆 输 入 啊 应 下 输入 线性 预测 合成 滤波 关 。 记 xx 为 当 激 励 输入 是 C” 时 滤波 大 的 合 
成 信号 ,x。 为 滤波 需 的 零 输 入 啊 应 , 则 有 
x, 一 MOMCC x, (5-66) 
式 中 ,M 是 感觉 加 权 滤 波 需 M(z) 的 冲 激 啊 应 矩阵 ,如 式 (5-51) 所 示 。 则 厚 信 号 和 合成 重 构 
信号 之 均 方 差 忆 ”为 
mE 1 pi 十 | x 一 Xo |: (5-67) 


对 于 给 定 的 C'o , 求 最 优 增益 io ,使 EQ 为 最 小 ,应 有 < 一 0。 由 此 得 


元 a) 
CIM' (x— xo) 


We CTMTMC®? (5-68) 
将 式 (5-68) 代 入 到 式 (5-67) 中 ,并 忽略 常数 项 ,得 到 误差 判 据 : 
TT 
a (5-69) 


COTMTMC® 
对 每 一 个 自 适应 码 矢量 C* 按 式 (5-71) 计 算 EL? ,选择 使 EL 最 小 的 Cl? 作为 激励 信 
号 中 的 自 适应 分 量 。 显 而 易 见 ,x 一 x。 是 自 适 应 码 本 搜索 过 程 中 的 目标 矢量 . 
按 同 样 的 方法 搜索 固定 码 本 , 求 得 激励 信号 的 固定 码 本 分 量 。 这 时 需要 考察 C” 的 响 
应 分 量 x,, 在 固定 码 本 搜索 时 依据 下 式 进行 计算 , 即 


_ [CPT™MT x 一元) 
i Ba 


选择 使 E5? 最 小 的 C5? 作为 激励 信号 中 的 固定 分 量 , 可 以 看 出 ,此 时 目标 矢量 变 为 x 一 ,。 
最 佳 码 本 矢量 选 定 后 ,将 Ge 代入 式 (5-68) 计 算 最 佳 增益 因子 jw , 同 理 可 根据 下 式 来 
计算 ie 。 


本 (5-70) 


Eo z 
一 CFMGP Se 


然后 对 两 个 增益 因子 4“ 和 4 进行 量化 , 自 适 应 码 本 增益 约 需 3 一 4 比特 ,固定 码 本 增 
痊 约 需 4 一 5 比特 。 

CELP 解码 天 一 般 申 两 部 分 组 成 : 综合 希 和 后 置 滤波 需 滤 波 。 综 合 需 生成 的 合成 语音 
一 般 还 要 经 过 后 置 滤波 希 滤 波 , 以 达到 去 除 噪 声 和 提高 音质 的 目的 。CELP 解码 融 的 示意 
图 这 里 就 不 再 给 出 。 

在 CELP 的 解码 硕 中 ,解码 操作 也 是 按 子 帧 进行 的 。 首 先 对 编码 中 的 索引 值 执行 查 表 
操作 ,从 激励 码 本 中 抽取 对 应 的 码 矢 量 ,通过 相应 的 增益 控制 单元 和 合成 滤波 需 生 成 合成 语 
音 , 而 合成 滤波 带 系 数 和 增益 按照 与 编码 器 同样 的 方式 定期 更 新 。 但 是 这 样 得 到 的 重 构 信 
人 往往 仍旧 包含 可 闻 了 噪声 ,在 低 数 但 率 编 权 的 情况 下 尤其 如 此 。 为 了 降低 噪声 ,同时 又 不 降 
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低语 音质 量 ,一 般 在 解码 带 中 要 加 入 后 置 滤 泊 融 , 它 能 够 在 听 筑 不 敏感 的 频 域 对 噪声 进行 选 
择 性 抑制 。 后 置 滤 波 既 包括 短 时 后 置 滤波 ,也 包括 长 时 后 置 滤 波 。 其 传输 图 数 表示 为 
Hils) = GH (zz H(z) (5-72) 
式 中 ,Hs(z) 和 Hi(z) 分 别 为 短 时 和 长 时 后 置 滤波 器 ,G 为 后 置 滤波 增益 控制 因 了 于 。 当 然 ， 
后 置 滤 波 中 也 可 以 不 包括 长 时 部 分 ,但 加 入 长 时 后 置 滤 波 确实 能 够 明显 改善 浊音 段 合 成 语 


音质 量 。 
短 时 相关 后 置 滤波 带 传递 吨 数 一 般 表 示 为 
ee i 
Hs(z) 一 Fe — pr) Cay 


参数 w 和 ws 控制 滤波 器 的 频率 啊 应 ,x 为 频谱 斜率 补偿 因 了 于 ,其 作用 是 补偿 由 于 后 置 滤 波 
右 扩 展 峰 合 距离 引起 的 频谱 变化 。y 值 可 作为 输入 信号 频谱 的 图 数 月 适应 调整 , 即 
BS 

F700) 
式 中 ,r(1)7r(0) 为 语音 信和 号 时 延 为 1 的 归 一 化 上 月 相关 因数 , 遂 数 C 用 于 限制 jy 的 取 值 范 赎 ， 
典型 值 为 0.5。 

长 时 相关 后 置 滤波 器 的 作用 是 增加 浊音 信号 的 周期 性 ,其 传递 函数 的 一 般 表示 式 为 

1 二 Az 
l1—Asz 
式 中 ,A 、As 为 系统 参数 ,D 为 基 音 周期 。 常 用 的 Hi (xz) 只 含 分 子 , 即 4s 二 0,1 为 时 延 为 DD 
的 归 一 化 目 相 关系 数 , 即 


(5-74) 


Hi (zx) = (5-75) 


《1 
rr(0) 
零点 滤波 器 。 之 所 以 采用 全 零点 而 不 是 全 极点 滤波 的 原 


Al 一 0. 5 (5-76) 


此 时 长 时 相关 后 置 滤波 器 呈现 为 全 
因 是 ,全 去 点 滤波 融 能 够 反映 波形 快速 变化 的 特性 ,能 再 生 具 有 高 度 周 期 性 的 重 构 信 号 。 

式 (5-72) 中 增益 因子 G 的 作用 是 保证 经 后 置 滤波 处 理 后 的 信号 的 能 量 和 输入 信号 相 
同 。 由 于 滤波 器 本 号 是 时 变 的 ,因此 增益 因子 也 需 自 适应 调整 。 最 常用 的 方法 是 取 
Dy? Cn) 
> yi Cn) 

式 中 ,yi(n) 和 ys(n) 分 别 为 后 置 滤 波 前 和 后 置 滤波 后 的 语音 信号 。 

后 置 滤波 需 可 以 根据 接收 到 的 短 时 和 长 时 预测 系数 导出 ,也 可 以 通过 线性 预测 分 析 的 
方法 从 解码 后 的 语音 信号 中 导出 。 

CELP 是 ABS-LPC 中 最 重要 的 形式 ,至 今 仍然 是 声 码 需 人 研究 中 的 热点 之 一 。 十 几 年 
来 ,减少 CELP 复杂 度 .增强 CELP 性 能 的 新 技术 不 断 出 现 。 下 面 人 简要 介绍 其 中 几 种 重要 
的 方法 。 

1) 矢量 和 激励 线性 预测 (VSELP) 编 码 

VSELP 与 CELP 的 基本 区 别 在 于 激励 序列 形成 的 方法 。 如 图 5-23 所 示 ,VSELP 有 3 
个 激励 源 。 一 个 激励 源 来 自 于 基 音 (长 时 ) 预 测 右 的 状态 , 即 自 适应 码 本 。 男 外 两 个 分 别 来 
月 于 具有 128 个 码 字 的 结构 化 随机 码 本 。3 个 激励 源 的 输出 分 别 乘 以 各 目的 增益 ,然后 相 
加 得 到 最 终 的 激励 序列 。 其 中 LPC 合成 滤波 器 由 具有 10 个 极点 的 滤波 需 构 成 ,分 析 帧 长 
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20ms。 在 合成 痪 ,通过 内 捅 ,激励 参 效 和 LPC 预测 系数 每 5ms 更 新 一 次 。 


感 寓 加 权 着 小 茄 


| 
| 
| 
四 X(n) 
| | Xn i 
| 
| | 
| 下 本 | 9 
随机 码 本 < 
a | (2) (十 ) H(z) (+) 2 
| 
| 
| 
|— 
| 
| 
| 
| 
| 


po “综合 滤波 器 计算 总 加 权 误差 


搜索 标号 L、[、 划 


使 总 加 权 误 差 最 小 


(a) 编码 如 框图 
r------------- 
pb | 
| 
自 适 应 , : 
- 但 本 CS pee 
}lgq 
| = 
随机 码 本 1 | / pe 
/ 3 — 
8 综合 滤波 器 
| 隐 和 U 林 
(b) 解码 怖 框图 


图 5-23 VSELP 编码 器 /解码 器 原理 框图 


VSELP 是 一 个 比较 理想 的 CELP 改进 形式 , 它 保留 了 CELP 高 效 编码 的 优点 ,同时 叉 
使 运算 量 大 大 降低 。 两 个 随机 码 本 可 在 保持 一 定 的 复杂 度 下 提高 声音 质量 。 而 结构 化 码 本 
不 仅 减 少 了 运算 量 , 也 增强 了 抗 信 着 误 码 的 能 力 。1989 年 8Kbps 的 VSELP 已 被 美国 电子 
工业 协会 (EIA) 下 属 的 电信 工业 协会 (TIA) 选 为 北美 TDMA 数字 蜂窝 电话 系统 语音 编码 
标准 (1S-54) ,其 语音 质量 与 32Kbps 的 CVSD 和 13Kbps 的 RPELPC 语音 质量 相当 。 一 种 
6.7Kbps 的 VSELP 也 被 日 本 采纳 为 TDMA 数字 蜂 视 (JDC) 系 统 全 速率 语 首 编 公 冀 标 准 。 

2) 短 时 延 CELP(LD-CELP) 编 码 

16Kbps 的 LD-CELP 编码 算法 已 标准 化 为 ITU-T 建议 的 G. 728 标准 。 前 面 所 述 几 种 
声 公 更 都 是 利用 前 馈 自 适应 预测 去 除 语 音信 号 的 相关 性 ,它们 都 需要 足够 的 编码 时 延 和 存 
储 空 间 ,典型 的 编码 时 延 在 40 一 60ms 之 间 。 而 LD-CELP 在 CELP 算法 基础 上 ,采用 带 有 
增益 参数 的 后 人 馈 目 适应 预测 和 5 维 激励 和 拓 量 来 达到 高 音质 和 低 时 延 的 效果 。 它 的 算法 时 延 
是 0.625ms ,一 路 编码 时 延 小 于 2ms。LD-CELP 编码 器 /解码 器 原理 如 图 5-24 所 示 。 

在 编码 端 ,5 个 连续 的 语音 样 点 形成 一 个 5 维 语音 矢量 。 激 励 码 本 中 共有 1024 个 5 维 
矢量 。 对 于 每 个 输入 霹 音 矢量, 编码 姑 利 用 合成 分 析 法 从 码 本 中 搜索 出 最 佳 天 量 , 然 后 将 
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A 律 或 n 律 PCM 输 入 转换 成 均 与 量 
量化 PCM “| 存储 器 
VQ 只 立 综 感觉 加 权 最 小 化 | YQ 索 3 
激励 码 本 滤波 s 滤波 器 均 方差 

| 
后 向 增益 向 预 
| 适配器 El | 
| | 


VQ 标号 


向 预测 
适 配 带 


(b) 解码 硕 框 图 
图 5-24 LD-CELP 编码 器 /解码 器 原理 框图 


10 比特 的 VQ 标号 送出 去 。 激 励 的 增益 和 线性 预测 系数 部 是 用 先前 量化 过 的 语 痛 信号 来 
提取 和 更 新 的 。 每 4 个 相 邻 的 输入 矢量 ( 共 20 个 采样 点 ) 构 成 一 个 子 帧 ,每 个 子 帧 更 新 一 次 

3) 共 斩 结 构 代 数码 激励 线性 预测 (CS-ACELP) 编 码 

ITU-T 的 编码 建议 的 G. 729 标准 就 是 米 用 这 种 语 首 编 公 方案。 其 编码 原理 如 图 5-25 所 示 。 

CS-ACELP 的 思想 是 基于 CELP 的 编码 模式 , 编 伺 疾 对 增益 的 矢量 量化 过 程 中 ,采用 
了 共 斩 结 构 (conjugate structure)。CS-ACELP 的 码 本 搜索 过 程 也 可 分 为 固定 码 本 的 搜索 
过 程 和 上 有 目 适 应 码 本 的 搜索 过 程 两 部 分 ,其 中 国定 码 本 采用 了 代数 (algebraic) 结 构 。 代 数码 
本 的 特点 是 : 算法 简单 , 码 本 不 需要 存储 ,其 码 矢 量 为 40 维 , 其 中 有 4 个 非 零 脉冲 ,它们 的 
幅度 为 十 1 或 一 1 ,位 置 也 在 限定 的 范 闭 内。 在 解码 端 ,只 要 从 编码 中 绪 得 非 零 脉冲 的 幅度 
和 位 置信 息 ,就 可 直接 得 到 对 应 的 输出 矢量 。 

在 发 送 端 要 进行 线 谱 对 LSP 参数 的 量化 、 基 音 分 析 、 固 定 码 本 的 搜索 和 增益 的 量化 4 
个 步骤 。 编 码 希 首先 对 输入 的 信号 (8kHz 采样 16 比特 PCM 信和 号) 进行 预 处 理 , 然 后 对 每 
帧 (10ms) 语 音 进 行 线性 预测 分 析 ,得 到 LPC 系数 ,并 将 其 转换 为 LSP 参数 ,接着 对 LSP 参 
数 进行 二 级 矢量 量化 。 基 音 分 析 采 用 开 环 基 音 分 析 和 上 月 适应 人 码 本 搜索 相 绪 合 , 每 一 帧 搜索 
到 最 佳 基 音 时 延 了 的 一 个 候选 工 。, 然 后 依据 Tu 在 每 一 个 子 帧 内 搜索 出 各 目的 最 佳 基 音 时 
延 。 固 定 码 本 的 搜索 主要 是 找到 4 个 非 零 脉冲 的 位 置 和 幅度 。 最 后 还 需 对 有 目 适 应 人 码 本 增益 
和 固定 码 本 增益 进行 量化 。 除 LSP 参数 每 帧 更 新 外 ,其 他 编码 参数 每 子 帧 更 新 一 次 。 

在 解码 器 端 ,通过 对 接收 到 的 各 种 参数 标志 进行 解释 得 到 编码 妖 参 数 ,依次 进行 激励 生 
成 .语音 合成 和 后 处 理工 作 。 在 参数 中 ,对 LSP 参数 进行 内 搬 , 以 使 其 每 子 帧 更 新 一 次 ,再 
将 其 转换 成 线性 预测 滤波 需 系 数 。 

实际 上 ,前 文 的 LPC 声 码 需 可 以 看 成 是 只 有 两 类 激励 矢量 的 开 环 CELP 语音 编码 痢 。 
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: 开 了 上 A 
请 育 输入 预 处 理 


线性 预测 分 析 


和 量化 内 插 
LPC 和 系数 ! 


LPC 
综合 滤波 器 中 


: 4 分 析 
| 

T 国定 码 本 搜索 
| 


i A 
| | 1 


: : | 发送 比特 流 
增益 量化 LPC 系 数 ee 编码 


(a) 编码 妖 


固定 码 本 
Ce 于 LPC 
HT 综合 滤波 器 
| 自 适 应 码 本 一 | 全 


(b) 解码 器 
图 5-25 ”CS-ACELP 编码 器 /解码 器 原理 框图 


基于 CELP 编码 的 变化 形式 还 有 很 多 ,例如 基 音 同步 刷新 码 激 励 线 性 预测 (PSI-CELP) 编 
码 、 变 速率 码 激励 线性 预测 (QCELP) 编 码 等 。1996 年 ITU-T 制定 的 G. 723. 1 编码 算法 ， 
在 网 络 多 媒体 通信 和 领域 获得 了 广泛 的 应 用 , 它 提 供 两 种 编码 速率 6. 3Kbps 和 5. 3bps。 在 
5. 3bps 编码 速率 下 ,编码 器 采用 的 是 ACELP 编码 算法 ,而 在 6. 3Kbps 的 速率 下 ,采用 的 是 
多 脉冲 激励 线性 预测 编码 算法 。 


5.2.3 基于 正弦 模型 的 混合 编码 


前 文 所 介绍 的 MPLPC、REPLPC 及 CELP 都 是 基于 全 极点 声 道 模 型 ,采用 线性 预测 分 
析 方 法 实现 的 语音 编码 算法 。 这 些 编码 算法 通过 采用 矢量 量化 技术 、 合 成 分 析 的 方法 以 及 
感觉 加 权 误 差 最 小 判决 准则 等 ,在 4.8 一 16Kbps 速率 范围 内 获得 了 巨大 的 成 功 。 然 而 当 速 
率 进 一 步 降 低 时 ,合成 语音 质量 迅速 下 降 。 由 于 全 极点 声 道 模 型 完全 是 基于 人 的 发 彰 物 理 
机 制 而 提炼 出 来 的 ,因此 上 述 线 性 预测 编码 送 在 分 析 和 合成 非 语音 声音 和 数据 时 (例如 语音 
段 中 包含 很 强 的 噪声 ) ,语音 的 质量 就 难以 满足 要 求 。 这 里 介绍 的 正弦 模型 编码 所 采用 的 是 
从 语音 信号 的 频谱 分 解 角度 出 发 而 建立 的 正弦 分 析 合 成 模型 。 这 种 模型 的 主要 优点 就 是 ， 
对 于 一 般 声 音 的 表示 和 重建 也 能 给 出 很 好 的 效果 ,例如 海 首 动物 的 声音 、 乐 音 \ 有 音乐 育 晕 
的 语音 、 多 人 同时 讲话 的 语音 等 。 基 于 正 弦 模型 的 编码 算法 同样 容易 与 人 耳 的 听觉 模型 相 
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结合 ,改善 合成 场 音 的 主观 音质 。 
正 弱 模型 的 思想 是 人 .JJ. Mcaulay 等 人 在 20 世纪 80 年 代 提 出 的 , 它 是 相位 声 码 器 的 进 
-此 发 展 。 声 音信 号 x(t) 可 以 表示 为 线性 时 变 再 道 滤波 兹 受 再 门 激励 信号 e(t 世 激励 而 产 
生 的 输出 , 即 


wl = | haf— Tt)e(r) dr (5-78) 
式 中 ,h(t,?) 是 线性 时 变声 道 滤波 器 的 单位 冲 激 啊 应 , 设 其 频率 啊 应 为 电 (w,t)。 并 有 


式 中 ,M(w,t) 和 BCw,) 分 别 为 HC(w,t) 的 幅 值 分 量 和 相位 分 量 。 同 时 可 以 用 一 组 时 变 的 正 
弦 波 来 描述 激励 信号 : 


NU?) 
e(1) = > art)sin(Vi (CD + $i) (5-80) 
下 一 1 
其 中 
VD) -| wi(o)do (5-81) 


t 是 第 个 正弦 波 的 开始 时 间 。 适 当地 选择 幅 值 w (7) ,频率 w.(7) 、 相 位 和 可 以 形成 浊音 、 
清音 或 过 渡 音 所 需要 的 声 门 激励 信号 e(1)。 将 式 (5-80) 代 入 式 (5-78) 并 经 推导 xz(2) 可 以 
化 简 为 如 下 形式 (详细 推导 过 程 请 参见 文献 [6]) : 


NC) 


z(t) = >》Al(D)sinLV (CD + $e Bw (7) ,1)] (5-82) 
k= 1 
式 中 ,Ai(1) 为 
A,(1) 一 a,(t) 。RA wi (1),z | (5-83) 


式 (5-82) 束 是 硬 首 信号 的 正 强 模型 , 即 可 以 将 请 首 信号 表示 成 基 音 信号 及 其 各 次 谐 波 的 竺 
加 ,这 样 短 时 语音 信号 就 可 以 用 基 音 频率 、 谐 波 振幅 及 其 相位 参数 来 表示 。 其 中 的 振幅 和 频 
率 是 缓慢 时 变 的 ,可 以 用 帆 间 峰值 匹配 算法 来 估计 ,而 相位 第 用 一 种 具有 去 卷 绕 能 力 的 内 插 
方法 来 实现 其 平 请 变化 。N(Go9 的 变化 说 明 语 音信 号 的 正弦 分 量 的 生 灭 现象 ,声音 的 过 渡 段 
主要 徘 正弦 分 量 的 生 灭 来 实现 十 首 特 征 的 急剧 过 渡 , 而 对 于 较 平稳 的 浊音 段 , 因 可 视 为 准 周 
期 性 信号 ,所 以 也 可 以 用 正 强 模型 很 好 地 描述 。 数 学 上 已 证 明 , 正 弦 模 型 可 以 描述 各 种 准 周 
期 性 信号 。 

采用 正弦 模型 对 语音 信号 进行 分 析 与 合成 具有 请 多 优点 ,许多 基于 这 种 思想 的 编码 方 
法 ,在 低速 率 围 内 表现 出 良好 的 性 能 。 典 型 的 基于 正 强 模型 的 语音 编码 有 正 续 变换 编码 
和 多 市 激励 编码 等 。 这 类 编码 融和 都 是 在 分 析 闪 通过 提取 和 量化 荣 些 参数 来 表示 声音 的 短 时 
谱 ,特别 注重 在 浊音 语音 中 的 基 音 谐 波 ; 在 合成 闫 用 一 组 正弦 波 相 加 来 合成 浊音 声音 ,并 通 
过 仔细 修正 每 帧 正弦 小 的 频率 和 相位 来 跟踪 浊音 语音 的 短 时 谐 特 性 。 从 这 一 点 来 说 ,基于 
正 强 模型 的 语音 编码 与 波形 编 人 乌有 相似 之 处 。 

1. 正弦 变换 编码 

正弦 变换 编码 (sine transform coding,STC) 是 通过 对 语音 进行 傅 里 叶 分 析 , 提 取 最 能 
表示 语音 信号 的 几 个 频率 成 分 ,并 用 这 几 个 频率 的 正弦 波 合 成 语音 。 

正 强 变换 编码 的 原理 如 图 5-26 所 示 。 在 编 公 问 分 析 请 首 帆 的 基 音 及 谐 波 成 分 ( 谱 峰 )， 
并 对 这 些 谱 峰 和 相位 的 信息 进行 编 公 和 传输 。 这 样 ,在 接收 痪 通过 这 些 参数 控制 一 组 正弦 


由 度 


相位 计算 相位 


(b) 合成 疹 


图 5-26 正弦 变换 编码 原理 图 


STC 编码 与 波形 编码 相 结合 可 以 产生 另 一 类 称 之 为 波形 内 搬 (CWDI) 的 编码 方法 。 

2. 多 审 激 励 (MBE) 编 码 

语音 信和 号 短 时 段 中 往往 既 含 有 周期 性 分 量 , 又 含有 非 周 期 性 分 量 , 这 种 特性 在 频谱 上 的 
表现 就 是 在 某 些 频段 上 语音 详 呈 现 周 期 诺 的 特征 ,而 在 某 些 频段 上 呈现 噪声 谱 的 特征 。 

美国 MIT 林肯 实验 室 于 1984 年 提出 了 多 带 激 励 语 音 编 码 方案 (multi-band excitation ， 
MBE) 。 它 将 请 音 谱 按 各 基 音 谐 波 频率 分 成 硅 干 个 融 , 对 各 市 信号 分 别 判 断 是 浊 首 (V) ,还 
是 清 首 (U)。 然 后 根据 各 市 是 清音 还 是 浊音 ,采用 不 同 的 激励 信和 号 产生 其 合成 信号 ; 最 后 
将 各 市 信号 相 加 ,形成 全 市 合成 厂 音 。 分 析 过 程 采 用 类 似 于 ABS 的 方法 ,提高 了 声音 参数 
提取 的 准确 度 。MBE 在 2. 4 一 4. 8Kbps 速率 上 能 够 合成 出 比 传统 声 码 颖 好 得 多 的 语 首 ,并 
旦 具有 较 好 的 目 然 度 和 抗 噪 性 能 。 

这 种 算法 提出 了 一 种 由 正弦 模型 引出 的 频 域 模型 一 多 市 激励 模型 ,其 模型 结构 如 图 5-27 
所 示 。 在 MBE 模型 中 ,加 窗 后 的 短 时 语音 信号 可 以 表示 为 

A fo = H.C, Cw) (5-84) 

即将 语音 信号 的 频谱 看 作 系 统 函 数 的 频谱 五 ,,(o) 与 激励 信号 的 频谱 EE, (w) 的 乘积 。 而 重 
构 语 音信 号 可 以 表示 为 


大 (ay = Hw)E., (Cw) (5-85) 
式 中 , 态 ,(w) 和 玉 ,(w) 分 别 是 五 (wo 和 瓦 ,Co) 的 估计 ,根据 原始 信和 号 计算 得 到 。 


脉冲 序列 谱 


频 域 WU | Es(@) | 时 变数 字 | ”语音 谐 gw(ow) 
判决 胡 滤波 器 


浊音 | 脉冲 序列 发 生 釉 | 


日 噪声 畜 谱 包 络 4n 


图 5-27 MBE 语音 信号 产生 模型 
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在 LPC 声 码 需 中 , 瓦 ,Co) 用 全 极点 图 数 来 通 近 。 而 激励 信号 E(w) 及 用 二 元 激励 形 
式 。 而 在 MBE 模型 中 , 首 抑 按 基 音 的 各 谐 波 频 率 , 将 一 帧 语音 的 频谱 分 成 奋 干 个 谐 波 市 ， 
然后 以 若干 个 谐 波 带 为 一 组 进行 分 带 , 例 如 以 3 个 相 邻 的 谐 波 带 为 一 组 进行 分 带 。 分 别 对 
各 带 进行 清 浊 (V/VU) 判 决 , 对 于 浊音 带 , 用 以 基 音 周期 为 周期 的 脉冲 序列 谱 作 为 激励 信号 
谱 ; 对 于 清音 带 , 则 使 用 日 噪声 谱 作 为 激励 信号 谐 。 总 的 激励 信号 由 各 带 激 励 信 号 相 加 构 
成 。 系 统 函 数 瑟 。(o) 的 作用 是 确定 各 频带 的 相对 幅度 和 相位 ,起 到 将 这 种 混合 的 激励 信号 
谱 上 映射 成 语音 谱 的 作用 。 这 种 模型 使 得 合成 语音 详 同 原始 语 首 谱 在 细致 结构 上 能 够 拟 合 得 
很 好 ,更 符合 实际 语音 的 特性 。 同 时 在 每 一 谐 波 带 内 可 以 认为 电 , (w) 保 持 不 变 , 用 一 个 党 
数 A, 来 表示 , 它 描述 了 各 谐 流 高 内 的 谱 包 络 情况 。 

MBE 编码 大 就 是 通过 调整 A, 入 ,(w) ,使 得 原始 语音 谱 模 值 |X,(w) | 与 合成 语音 谱 
模 值 |XX,,(w) | 之 差 的 加 权 积 分 达到 最 小 , 即 令 下 式 为 最 小 

e 一 | MC) X,(w) | 一 | Xs,(w) | 六 do (5-86) 
式 中 ,M(w) 为 感觉 加 权 频 率 羡 数 。 

由 图 5-27 可 知 , 对 于 每 一 帧 语 首 ,必须 已 项 如 下 参数 才能 完成 对 MBE 模型 的 分 析 : 基 
音频 率 wo 、 清 浊音 判决 和 谱 包 络 参 数 A,, (实际 是 谐 波 处 的 谱 抽 样 )。 基 首 频 率 和 谱 包 络 参 
数 的 估计 是 同时 进行 的 。 估 计时 采用 搜索 算法 和 最 小 均 方 误差 准则 ,依次 假设 基 音 频率 on 
为 各 种 可 能 出 现 的 值 。 对 每 一 个 wo , 按 谐 波 市 宽 将 wo= 一 x 一 并 分 成 M 个 谐 波 市 。 各 频 市 
频率 的 上 ,下限 分 别 为 65, = 二 Cm 十 1/2)wo 和 a 二 Cm 一 1/2)woym 二 一 M~M, 则 式 (5-86) 可 
以 写成 如 下 形式 ， 
ge- 本 Me X,(w) | 一 | A。 | ECw) do (5-87) 


中 了 


可 以 证 明 , 当 


| "Mw) | X Cw) | Co) | dw 
一 一 (5-88) 
| Mo) 二 二 让 
时 , 式 (5-87) 取 最 小 值 。 在 未 做 清 浊 音 判 定之 前 ,所 有 频带 均 假 设 为 溃 音 。 
基 音 频率 搜索 和 估计 由 以 下 方法 实现 。 
为 减少 运算 的 复 江 性 , 先 在 时 域内 进行 粗 居 。 将 式 (5-87) 转 化 为 时 域 形 式 , 并 加 入 修 
正 项 ,得 到 无 俩 佑 计 式 : 


N 尖 
一 BY, $ (ED) 
i Wn (5-89) 


N N 
| ] 一 也 A Tu | b> vw (n) x | 
型 三 一 全 | 1 天 三 一 条 


式 中 ,zx(7) 和 rw(n) 分 别 是 原始 语音 信号 和 和 窗 阴 数 , 且 有 p> wln) 上? 二 1。D 为 假定 的 基 


二 


音 周 期 , $(1m) 一 > xz (CT (nn 一 m)zx(n 一 m), 它 实际 上 是 w (nn)zx(n) 的 目 相 关 卫 


Fi = C—O 


数 。 做 估计 时 , 设 窗 长 为 (2N 十 1) ,并 统 原 点 对 称 , 同 时 假设 在 窗 长 范围 内 有 工人 个 假设 的 基 
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首 周 期 , 即 
(5-90) 


“ Exe 
符号 | x | 表示 取 小 于 或 等 于 z 的 最 大 整数 。 通 过 搜索 ,可 以 得 到 一 个 基 音 周期 的 初次 估计 
值 Di。 为 保证 佑 计 的 精确 度 ,还 要 在 频 域 内 根据 式 (5-87) 进 一 步 搜索 初次 估计 Di 附近 的 
值 。 当 最 终 确 定 了 ou 后 ,可 由 式 (5-88) 直 接 计 算 对 应 的 |A。 | 。 

对 每 个 频 市 都 要 进行 V/U 判决 , 痛 先 计算 下 式 


Em 


By (5-1L) 


寺 | | 本 
由 于 在 估计 谱 时 假设 语 首 为 浊 首 ,因此 浊音 市 误差 5 较 小 ,而 清音 之 误 差 较 大 。 所 以 
可 以 将 与 一 预先 设 定 的 门限 值 比较 ,从 而 做 出 V/U 判决 。 确 定 V/U 后 ,可 以 对 各 谐 
波 的 幅度 做 最 后 的 确定 。 对 于 浊音 带 有 a 二 1A |; 对 于 清音 带 , 其 幅度 值 就 是 原始 语音 该 
谐 波 币 的 平均 幅度 值 。 
MBE 合成 算法 是 以 MBE 模型 为 依据 ,利用 分 析 算法 得 到 的 参数 来 合成 语音 。 清 浊音 
分 别 进行 合成 操作 ,然后 将 两 者 相 加 得 到 最 终 的 合成 语音 。 


1) 清音 语音 合 


清音 合成 是 在 频 域 进行 的 。 设 Uu 是 一 单位 方差 日 曝 声 信号 的 加 窗 详 。 用 V/U 判决 
第 来 来 修正 U ,使 日 噪声 信号 在 频率 分 布 和 能 量 上 与 原始 博 音 的 清音 相 吻 合 。 用 于 在 谐 让 
审 的 浊音 区 , 令 Us.(o) 王 0, 所 以 修正 的 效 朱 相当 于 用 一 组 市 通 涯 小 表 滤 除了 浊音 市 的 信 
号 。 修 正 后 的 U 再 做 侍 里 叶 反 变换 就 得 到 了 合成 的 清音 请 首 序 列 。 为 保证 前 后 帧 语音 的 
连续 性 ,此 序列 还 要 经 过 前 后 巾 的 线性 插值 ,最 后 得 到 当前 帆 语 首 的 消 首部 分 Zw (7)。 


2) 浊音 语音 合 上 
浊音 可 以 用 一 组 以 基 频 w。 及 其 证 波 为 振荡 频率 的 正弦 波 在 时 域 是 接合 成 。 即 
Twat) = > ant)sin(O, (1)) (5-92) 
式 中 ,a (7) 为 第 m 次 谐 流 市 的 幅度 ; 而 
0, (1) = | wade fo (5-93) 
是 相位 图 数 , 册 是 初始 相位 ,ww (7) 是 经 前 后 帆 线 性 插值 的 频率 轨迹 。 最 后 合成 语音 为 
al = di) (5-94) 


MBE 编码 在 速率 降 至 2. 4Kbps 时 , 仍 能 保持 相当 的 可 懂 度 和 自然 度 。 由 于 MBE 不 需 
要 人 码 本 ,其 复杂 度 也 较 低 , 所 以 基于 MBE 的 编码 器 在 多 项 语音 编码 标准 评选 中 均 显 示 了 强 
有 力 的 竞争 力 。 一 种 改进 的 MBE 编码 器 (IMBE) 在 1990 年 被 INMARSAT 和 AUSAT 采 
纳 ,作为 其 移动 卫星 通信 的 声音 编码 标准 ,编码 速率 为 6. 4Kbps,EIA/TIA 也 选择 了 MBE 
编码 器 作为 北美 陆地 移动 通信 系统 (Project25) 的 语音 编码 标准 ,编码 速率 为 7.2Kbps。 


5.3 极 低 速率 语音 编码 技术 


前 面 介 绍 的 各 种 编码 算法 ,主要 是 针对 中 低速 率 博 音 编 但 应 用 的 。 通 凋 将 数码 府 低 于 
1. 2Kbps 以 下 的 二 音 编码 融 称 为 极 低速 率 博 音 编码 天 ,这 类 编码 甫 在 算法 上 有 者 不 同 的 特 
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点 ,本 王 专 门 进行 讨论 。 

现代 通信 一 方面 扩展 信和 过 ,实现 “和 宽 市 通信 ”, 为 一 方面 仍然 但 求 更 加 有 效 、 经 济 实用 的 
信 站 。 其 中 最 重要 一 项 就 是 要 不 贿 信 源 频 市 或 编 但 速 府 。 在 培 音 的 通信 信道 中 ,有 的 信道 
难以 扩 寓 , 且 质 量 很 差 , 例 如 短波 信道 : 有 的 信 关 正在 广 记 使 用 ,短期 内 难以 更 新 ,如 市 话 和 
载波 信道 : 有 的 信道 通信 环境 比较 复杂 ,例如 在 中 的 ”人 为 干扰 ”或 环境 逊 声 下 的 车 用 通信 、 
数字 语音 你 密 通 信 、 因 特 网 请 音 通信 ; 还 有 的 信道 十 分 兄 贵 ,例如 卫星 .宇宙 通信 等 。 在 这 
些 条 件 下 , 极 低 速率 诸 首 编码 顾 具 吸引 力 。 


5.3.1 400bps~1.2Kbps 的 声 码 器 


400bps 一 1. 2Kbps 的 声音 编码 算法 一 般 是 在 2. 4Kbps 的 LPC 声 码 天 的 基础 上 ,利用 
矢量 量化 技术 和 怖 间 相 关 性 做 进一步 的 数据 压缩 。 

1. 帧 填充 技术 

在 2. 4Kbps 声 码 需 的 码 序 列 中 , 相 邻 帧 之 间 仍 存在 相关 性 ,尤其 在 较 平 稳 的 语音 段 , 如 
浊音 段 , 帧 与 帧 之 间 变 化 并 不 大 。 因 此 ,编码 时 可 以 每 隔 一 帧 做 一 次 编码 传输 ,并 通过 边 信 
县 通知 合成 闫 如 何 填充 空 日 帧 ,填充 时 可 以 使 用 前 邻 帧 ,也 可 以 使 用 后 邻 帧 。 这 样 处 理 大 概 
可 以 再 压缩 一 半 的 编码 速率 。 在 这 种 构想 的 基础 上 ,还 可 以 再 做 一 些 更 加 细致 的 考虑 , 比 
如 ,使 填充 帧 的 基 频 能量 按 既 定 的 规则 生成 ,而 不 是 完全 复制 相 邻 帧 。 采 用 帧 填充 技术 后 ， 
可 以 在 数码 率 降 低 一 半 后 ,保证 合成 语音 的 音质 基本 保持 不 变 。 

2. 矢量 量化 技术 

利用 矢量 量化 技术 可 以 进一步 减少 帧 间 编 码 参 数 的 相关 性 。 在 码 激 励 线 性 预测 编码 需 
中 ,利用 矢量 量化 技术 对 激励 信号 进行 编码 ,实现 了 对 编码 的 压缩 ,实际 上 ,还 可 以 利用 矢量 
量化 技术 对 声 道 滤 波 器 系数 等 参数 进行 编码 ,进一步 降低 编码 速率 。 其 基本 思路 是 : 把 一 
帧 或 多 帧 需要 传输 的 某 些 参 数 划 分 在 一 起 ,组 成 一 个 矢量 。 根 据 感觉 误差 最 小 准则 ,在 一 个 
已 训练 好 的 码 本 中 搜索 该 天 量 对 应 的 最 佳 码 字 ,在 传输 时 只 传送 该 码 字 在 人 码 本 中 的 序号 ,这 
样 就 可 以 进一步 降低 编码 速率 ,而 不 过 多 地 影响 音质 。 

在 极 低 速率 声 码 需 中 ,利用 矢量 量化 技术 来 压缩 编码 速率 的 一 个 典型 的 例子 是 VQ-LPC 
声 码 需 。 它 在 LPC 声 人 码 虽 的 基础 上 ,结合 VQ 技术 进一步 降低 了 编码 速率 ,而 语音 质量 并 
没有 明显 下 降 。 从 5. 2. 1 节 可 以 看 出 ,LPC 声 码 需 LPC-10 的 参数 量化 比特 分 配 的 情况 为 : 
基 音 6 比特 , 清 神 标志 1 比特 ,增益 5 比特 ,这 些 参数 已 没有 进一步 压缩 的 余地 。 然 而 户 个 
LP 参数 仍然 还 具有 较 大 的 不 缩 余 地 ,它们 本 身 就 是 一 种 典型 的 天 量 信号 。 每 组 LP 参数 代 
表 一 种 与 能 量 大 小 无 关 的 谱 形 , 它 反映 声 道 的 一 种 形态 。 对 于 这 样 的 矢量 ,已 经 找到 了 与 主 
观感 党 有 较 好 对 应 关系 的 失真 测 度 方 法 。 既 然 它 是 声 道 形 态 的 表征 ,那么 它 在 户 维 空间 中 
的 分 布 必然 是 比较 集中 的 ,而 人 类 听觉 系统 对 于 语音 信号 的 谱 形 的 分 辨 能力 有 限 ,允许 一 和 定 
程度 的 量化 失真 ,因此 用 VQ 技术 进行 量化 编码 时 , 码 本 不 必 很 大 。 一 般 情况 下 , 码 本 中 码 
字 的 数量 为 256(2 ) ,最 多 为 1024(2")。 这 样 用 VQ 技术 对 LP 参数 进行 编码 ,可 以 提高 其 
数据 压缩 比 ,以 p= 二 10 为 例 , 在 量化 编码 前 ,大 每 个 参数 用 4 个 字 贡 的 浮 点 数 表示 , 则 一 帧 数 
据 总 共 需 要 40 个 字 节 。 车 用 码 本 大 小 为 256 的 矢量 量化 器 编码 ,一 帧 数据 仅 用 1 个 字 节 ， 
压 峭 了 40 倍 ,就 是 与 前 述 LPC-10 中 每 个 参数 抓 立 地 进行 编码 ( 即 标量 量化 ) 时 相 比 ,其 压 
缩 比 也 要 高 。 
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米 用 VQ 技术 对 LPC 参数 编码 ,不 必 考 虑 每 个 参数 的 量化 特性 ,只 要 考虑 这 种 参数 拓 
量 在 多 维 空 间 中 的 失真 测度 。 例 如 : 增益 归 一 化 似 然 比 失真 测度 就 是 一 种 用 于 VQ 的 民 好 
失真 测度 ,然而 计算 这 种 测度 所 用 的 参数 (被 测 信 号 的 增益 归 一 化 日 相关 数 和 参考 信号 线性 
预测 系数 的 目 相 关 数 ) 的 量化 特性 邦 不 大 好 。 妆 然 , 合 成 滤波 部 参数 的 捅 值 特性 仍然 是 重要 
的 。 可 以 用 两 类 不 同 的 参数 存储 两 个 相对 应 的 码 本 ,一 个 用 于 VQ 编码 ,一 个 用 于 合成 和 参 
数 内 插 。 

VQ 用 于 数据 压 绒 的 所 有 优势 在 LP 参数 的 编 公 中 虱 能 得 到 充分 的 体现 。A. Buzo 等 
人 在 首次 提出 VQ 技术 的 应 用 时 ,就 是 用 VQ-LPC 声 码 器 作为 例证 来 证 明 VQ 压缩 数据 的 强 
大 威力 的 。 这 一 例证 对 于 新 型 证 首 编 色素 和 低速 骏 声 码 颖 的 发 展 更 是 起 了 重要 的 推动 作用 。 


5.3.2 识别 合成 型 声 码 器 


从 信息 论 的 观点 来 看 ,语音 所 含 信 息 量 的 信息 率 下 界 是 50bps 左右 (对 英语 而 言 )。 但 
是 ,已 有 的 大 量 研究 表明 : 要 将 数码 率 奈 缩 至 400bps 以 下 ,目前 的 各 种 基于 分 析 合 成 的 算 
法 都 不 能 满足 要 求 , 所 提供 的 语音 质量 无 法 达到 公众 能 接受 的 程度 。 其 根本 原因 在 于 这 种 
分 析 合 成 型 声 码 天 的 编码 单元 是 一 帧 或 几 帧 语音 信号 ,每 帧 约 为 10 一 30ms 的 一 段 ,其 特性 
变化 无 穷 , 用 一 个 太 小 的 有 限 符号 集 来 编码 ,意味 着 恢复 的 语音 信号 难免 产生 不 可 容忍 的 失 
真 。 要 接近 这 个 下 界 , 只 有 采用 语音 识别 与 合成 技术 ,以 语音 基 元 为 编码 单位 进行 编码 。 这 
-思想 早 在 20 世纪 50 年 代 就 已 提出 ,20 世纪 80 年 代 还 曾 有 多 个 研究 机 构 申 请 过 发 明 专 
利 ,但 由 于 面临 语音 识别 和 语音 合成 两 大 难题 ,一 直 没 能 进行 实用 化 研究 。 近 十 几 年 来 , 非 
特定 人 .连续 语音 识别 和 按 规则 语音 合成 已 取得 突破 性 进展 ,因此 ,现在 开发 这 种 声 码 需 应 
该 说 已 经 具备 了 较 好 的 基础 。 

识别 合成 型 声 码 硕 就 是 采用 语音 识别 与 合成 技术 ,以 语音 单位 (或 称 声音 基 元 ) 为 编码 
单元 对 请 音信 号 进行 编码 。 请 音 基 元 可 以 是 音素 .音节 或 词 ,任何 一 种 语言 的 音素 或 音 世 都 
是 一 个 有 限 数目 的 集合 ,用 它们 作为 基 元 进行 编码 可 以 实现 无 限 词汇 的 语音 编码 。 这 种 声 
码 器 的 结构 如 图 5-28 所 示 ,在 发 送 部 分 采用 语音 识别 技术 进行 语音 基 元 识别 和 编码 ,接收 
部 分 根据 收 到 的 语音 基 元 代码 串 和 革 些 附加 的 韵律 信息 重新 合成 语音 。 因 此 这 种 声 码 需 需 
要 在 信道 中 传输 的 参数 很 少 , 可 以 以 极 低 的 编码 速率 传输 或 存储 语音 参数 ,而 且 能 恢复 出 高 


质量 的 语音 。 


| 韵律 特征 
提取 
(a) 编码 如 (b) 解码 器 
图 5-28 识别 合成 声 码 器 示意 图 


| 


这 种 独特 的 语音 编码 技术 ,全 少 对 于 汉语 来 讲 应 该 是 现实 可 行 的 ,上 且 很 有 和 发展 前 景 。 这 
主要 是 因为 汉语 语 首 有 其 独特 的 语言 结构 ,其 音 太 基本 上 是 以 声母 ,前 母 和 声调 巧妙 地 结合 
而 成 的 。 汉 声音 万 总 数 只 有 一 千 多 种 ,它们 在 语音 流 中 具有 一 定 的 独立 性 和 稳定 性 ,比较 容 
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多 基于 音 斑 基 元 肯 动 识别 ,也 容 多 以 音节 为 基 元 合成 无 限 的 词汇 。 

识别 合成 型 声音 编码 的 基础 是 语音 识 询 和 语音 合成 技术 。 目 前 , 汉 请 的 非特 定 人 连续 
语音 识别 技术 和 局 清晰 度 .高 月 然 度 的 语音 合成 技术 已 取得 重大 的 进展 ,因而 发 展 这 种 识别 
合成 型 编码 拉 术 的 时 机 已 经 到 来 。 但 古 在 基于 语 首 识别 与 合成 技术 构成 的 识别 合成 声 人 码 带 
中 ,还 存在 一 些 在 通 第 的 识别 合成 研究 中 不 冒 遇 到 的 问题 . 

1) 如 何 从 语 首 信号 中 提取 前 律 特 征 参 数 并 对 它们 进行 压缩 编码 

所 谓 韵 律 承 是 语句 中 各 音 蔬 的 声学 特征 ,如 音 长 . 音 强 、 基 音 轮 廓 线 .共振 峰 轨 迹 等 的 变 
化 规律 ; 在 接收 器 利用 这 些 前 律 参 数 可 以 获得 较 蜗 质量 的 输出 语 首 。 汉 语 语 首 首 太 虽 然 在 
十 名 中 有 一 定 的 称 定 性 和 独立 性 ,但 音 世 之 间 的 相互 影响 也 是 十 分 明显 ,特别 是 同一 词 内 相 
邻 的 音 贡 之 间 存 在 者 明显 的 协同 发 音 的 情况 ,它们 的 基 音 轮廓 线 和 共振 峰 走 网 等 特征 之 加 
的 相互 影响 有 时 十 分 显 着 。 因 此 ,合成 参 句 时 奉 不 对 所 有 的 音 万 进行 适当 的 韵律 修改 ,合成 
请 首 不 仪 日 然 度 差 ,可 异 度 也 很 低 。 

2) 如 何在 语音 识别 中 保证 获得 较 高 的 首 节 识别 正确 率 

例如 使 用 特定 人 请 音 识别 技术 。 虽 然 汉 语 非 特定 人 连续 语 痛 识别 技术 已 经 取得 了 重大 
的 进展 ,但 是 大 量 的 文献 表明 ,非特 定 人 语音 识别 系统 的 性 能 仍然 无 法 和 特定 人 语音 识别 的 
性 能 相 比 拟 。 然 而 在 特定 人 系统 中 ,对 于 大 词汇 量 语 音 识别 系统 而 言 , 由 于 有 大 量 的 参数 需 
要 训练 ,需要 使 用 销 录 和 人 大 量 的 训练 数据 ,这 是 一 件 非常 烦 项 的 工作 ,而 且 在 很 多 情 疙 下 也 
是 不 可 能 的 。 一 种 可 行 的 方法 是 采用 说 话 人 目 适 应 技术 ,研究 表明 在 语音 识别 系统 中 ,应 用 
各 种 快速 说 语 人 目 适 应 算法 是 提高 系统 性 能 的 一 种 有 效 途 径 。 故 外 ,大 量 研究 也 表明 ,适当 的 
堵 言 模型 对 提 融 系 统 的 识别 率 也 可 发 挥 重 要 的 作用 。 而 在 识别 合成 声 码 豆 中 的 语言 模型 又 己 
- 般 语 音 识别 系统 的 语言 模型 有 所 不 同 , 它 可 以 在 保证 音 市 发 音 正确 的 情况 下 ,不 必 区 分 音节 
所 对 应 的 不 同 汉 和 字 的 情 沈 。 而 且 在 模型 中 ,前 律 信息 也 可 以 有 效 地 加 以 利用 ,以 得 到 更 高 的 识 
别 率 性 能 。 因 而 研究 适用 于 识别 合成 型 声 码 融 的 语言 模型 也 是 该 编码 算法 的 一 项 重要 任务 。 


5.4 语音 编码 兽 的 性 能 指标 和 质量 评测 方法 


- 般 总 是 通过 衡量 比较 各 种 语音 编码 器 或 语音 编码 算法 的 性 能 指标 来 评价 它们 的 好 
坏 ,这 些 指标 包括 编码 速率 .语音 质量 、 奖 健 人 性、 时 延 . 计 算 复杂 性 和 算法 的 扩展 性 等 。 从 前 
面 的 分 析 知 道 ,对 同一 种 编码 算法 而 言 ,这 些 性 能 指标 之 间 往 往 存在 矛盾 ,必须 根据 实际 情 
况 进 行 取舍 和 折 中 。 


5.4.1 编码 速率 


降低 编码 速率 往往 是 语音 编码 的 首要 目标 , 它 耳 接 关 系 到 传输 资源 的 有 效 利 用 和 网 络 
容量 的 提高 。 根 据 编 码 速率 和 输入 语音 的 关系 可 将 编码 需 分 成 两 类 : 固定 速率 编码 器 和 可 
变速 率 编码 需 。 

现 有 大 部 分 编码 标准 都 是 固定 速率 编码 ,其 范围 为 0.8 一 64Kbps。 其 中 ,保密 电话 的 编 
码 速率 最 低 , 为 0.8 一 4.8Kbps, 其 原因 是 它 的 通信 信道 带宽 限定 在 4. 8Kbps 以 下 。 数 字 蜂 
宽 移 动 电 话 和 卫星 电话 编码 器 的 编码 速率 为 3.3 一 13Kbps, 它 使 数字 蜂窝 系统 的 容量 可 以 
达到 模拟 系统 的 3 一 5 售 。 需 要 注意 的 是 , 蜂 坟 系统 中 常 伴 有 信道 编码 ,使 总 的 编码 速率 达 
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到 20 一 30Kbps。 普 通电 话 网 的 编码 速率 为 1 一 64Kbps。 其 中 有 一 类 特别 的 编码 器 称 为 宽 
带 (wideband) 编码 器 ,其 编码 速率 为 48/56/64Kbps 用 于 传送 50Hz 一 7kHz 的 高 质量 音频 
信号 ,主要 应 用 于 会 议 电 视 系 统 。 在 固定 速率 的 编码 硕 中 ,有 些 编码 带 采 用 了 一 些 特殊 的 拉 
术 来 提高 信 站 利用 率 ,例如 声音 捕 空 扩 术 , 它 利 用 诸 音 信号 之 问 的 目 然 停顿 传送 另 一 路 语音 

可 变速 率 编 码 是 近年 来 出 现 的 新 技术 。 根 据 统计 ,两 方 通话 大 约 只 有 40% 的 时 间 是 真 
正 有 声音 的 ,因此 一 个 日 然 的 想法 是 采用 通 、 断 二 状态 编码 。 通 状态 对 应 有 声 期 ,采用 固定 
编码 速率 ; 断 状 态 对 应 无 声 期 ,传送 极 低 编码 速率 信息 (如 背景 噪声 特征 等 ) ,甚至 不 传送 任 
何 信息 。 eh etic etn ei ee lle 
速率 。 可 变速 率 编码 主要 包括 两 个 算法 。 一 是 有 声 检 测 (voice activity detection,VAD)， 
要 用 于 确定 输入 信号 是 语音 还 是 育 景 噪声 ,其 难点 在 于 正确 识别 语音 段 的 起 始点 帮 相 首 
的 可 懂 度 。 二 是 舒适 噪声 生成 (comfortable noise generation ,CNG) ,主要 用 于 接收 端 重建 
育 景 噪声 ,其 设计 必须 保证 发 送 端 和 接收 端的 同步 。 可 变速 率 编码 的 熏 型 应 用 是 数字 电路 
倍增 设备 . 非 实时 的 培 音 存 储 和 CDMA 移动 通信 系统 。 


5.4.2 项 健 性 


编码 兹 的 项 健 性 (robustness) 是 通过 取 多 种 不 同 来 源 的 语 首 信号 进行 编码 解码 ,并 对 
输出 语音 质量 进行 比较 测试 得 到 的 一 种 指标 。 例 如 , 取 不 同 发 音 人 的 博 音 、 各 种 背景 噪声 下 
的 语音 .用 各 种 麦克 风 或 不 同 频 啊 的 放大 希 录 制 的 语音 、 非 语音 声音 等 。 在 应 用 于 通信 系统 
时 ,编码 希 要 适应 各 种 各 样 的 情况 。 

多 级 编码 解码 (tandem encoding) 情 次 下 的 输出 语音 质量 ,也 是 衡量 编码 硕 珊 健 性 的 一 
项 重要 指标 。 在 和 逐步 发 展 起 来 的 数字 通信 网 中 , 既 有 数字 电话 又 有 模拟 电话 ,从 半 到 病 的 路 
由 中 ,语音 信号 会 在 模拟 信号 和 数字 化 压 纵 编 码 之 间 多 次 进行 转换 , 即 出 现 一 种 异步 级 联 多 
级 编 解 码 的 情况 。 在 这 样 的 情况 下 ,有 些 编 码 算 法 的 语音 质量 就 会 明显 下 降 ,例如 ADPCM 
编码 硕 级 联 , 其 音质 就 大 为 降低 。 本 也 存在 从 “64Kbps PCM 一 数字 
化 压缩 编码 ”这 样 的 多 级 级 联 编 解码 的 情况 。 这 种 同步 多 级 级 联 编码 形式 对 于 一 些 复 洒 的 
编码 算法 ,例如 ATC 等 的 影响 非常 大 。64Kbps 的 上 律 PCM 对 以 上 两 种 类 型 的 多 级 级 联 
编 色 ,解码 的 情况 部 具有 很 好 的 项 健 性 。 

此 外 ,在 存在 部 分 数据 丢失 的 情况 下 ,语音 编码 融 硕 健 性 的 研究 也 有 重要 的 意义 。 特 别 
是 在 异步 传输 方式 (asynchronous transfer mode, ATM) 下 ,通信 数据 其 元 于 失 是 很 难 避 人 免 
的 。 如 果 不 采 取 一 定 的 措施 ,即使 是 64Kbps 的 pg 律 PCM 的 语音 质量 也 会 因 部 分 数据 丢失 
而 明显 降低 。 解 决 这 一 问题 的 方法 有 3 种 , 即 蔡 代 法 .插值 法 和 上 租 人 式 编 但 方案 。 采 用 此 类 
方法 ,可 以 有 效 地 提高 数据 丢失 时 编码 冀 的 项 健 性 。 

5.4.3 时 延 

编码 闫 时 延 由 以 下 4 部 分 组 成 。 

1. 算法 时 延 


编码 和 解码 操作 通 稍 是 以 帧 为 单位 进行 的 ,有 些 算 法 中 还 需要 知道 下 一 帧 的 部 分 数据 ， 
称 为 “前 视 (lookhead)”。 因 此 ,算法 时 延 就 等 于 帧 长 和 前 视 长 度 之 和 ,其 值 完 全 取决 于 算 
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法 ,与 具体 的 实现 无 关 。PCM 编码 的 算法 时 延 为 125us。 对 于 低速 率 编码 来 说 ,其 典型 值 
为 20 一 30ms。 

2. 计算 时 延 

即 编码 旨 分 析 时 间 和 人 解码 器 的 重建 时 间 ,其 值 取决 于 人 刹 件 速度 。 通 党 可 认为 计算 时 延 
等 于 或 略 小 于 幅 长 ,以 确保 下 一 帆 数 据 到 齐 后 ,当前 帆 已 处 理 完 毕 。 算 法 时 延 和 计算 时 延 之 
和 称 为 单 问 编 解 但 天 时 延 。 

3. 复 用 时 延 

即 汉 配 时 延 。 编 码 疾 发 送 之 前 和 解 公 疾 解码 之 前 ,必须 将 整个 数据 块 的 所有 比特 六 
配 好 。 
4. 传输 时 延 
其 全 离散 性 很 大 ,取决 于 是 及 用 专用 线 还 是 共 盏 信 站 。 对 于 共享 信道 而 言 , 币 假设 传输 
时 延 和 复 用 时 延 之 和 约 为 1 个 帧 长 。 

上 述 4 部 分 时 延 之 和 称 为 单 问 系统 时 延 , 粗 略 佑 计 至 少 为 3 个 帧 长 。 语 音 通 信 对 于 时 
延 有 较 高 的 要 求 。 对 于 交互 式 通信 来 说 , 单 回 时 延 大 于 150ms 就 可 感受 到 通话 连续 性 受到 
影响 ,最 大 可 容 借 时 延 为 400 一 500ms, 超 过 此 值 只 能 进行 半 双 工 通信 。 对 于 具有 回声 的 情 
况 , 单 癌 时 延 不 能 超过 25ms ,否则 就 需要 交 备 回声 抑制 功能 。 

需要 指出 的 是 , 单 品 系统 时 延 不 单 决定 于 请 首 编 码 , 它 还 与 网 络 环境 等 多 种 外 部 条 件 有 
关 。 对 于 不 同 的 系统 ,即使 采用 相同 的 编码 融 , 其 系统 时 延 也 会 有 很 大 的 差异 。 


5.4.4 计算 复杂 度 和 算法 的 可 扩展 性 


计算 复杂 度 主要 影响 硬件 实现 的 成 本 。 能 否 推 广 应 用 ,设备 成 本 当然 是 一 个 不 容 忽 视 
的 因素 。 对 于 一 些 复 杂 的 编码 算法 ,如 混合 编码 算法 ,一 般 采 用 处 理 每 一 秒 钟 信号 所 需 的 
DSP( 数 宇 信号 处 理 硕 ) 指 令 条 数 来 衡量 其 计算 复杂 上 度 。 

所 请 算法 的 可 扩展 性 是 指 一 种 编码 算法 不 仅 能 解决 当前 的 实际 应 用 ,而 且 可 以 莱 顾 将 
来 的 发 展 , 随 着 运算 器 件 性 能 的 增强 ,算法 稍 加 修改 就 可 获得 更 高 的 语音 质量 。 这 就 是 要 求 
算法 具有 可 扩展 性 。 


5.4.5 语音 质量 久 其 评价 万 法 


编 解 权 后 的 博 音 质量 受到 很 多 条 件 的 制约 ,例如 编码 融 速 率 的 高 低 、 环 境 噪 声 的 情况 、 
传输 信 起 误 码 的 影响 ,多重 编 解 但 的 影响 ` 不 同 发 音 者 4 如 忆 音 和 低音 ) 的 影响 \ 不 同 语 言 的 
影响 等 。 在 这 些 制约 关系 中 ,数码 率 等 是 非常 定量 的 概念 ,而 音质 则 易 受 主观 因 系 的 影响 ， 
然而 在 对 编 权 带 进 行 性 能 评价 的 时 候 ,的 确 需要 一 种 可 重复 的 .意义 明确 的 .可 徘 的 方法 对 
簿 出 语音 质量 进行 量化 。 实 际 上 ,不 只 是 语音 编码 领域 需要 对 语音 质量 定量 分 析 ,在 培 音 合 
成 和 语音 增强 等 领域 同样 需要 进行 音质 的 评价 。 

目前 用 于 评价 输出 语音 质量 的 方法 可 分 为 主观 和 客观 两 种 。 主 观 评价 是 基于 一 个 或 一 
组 评 听 者 对 原 妨 诸 首 和 失真 语 首 ( 即 经 编 解码 后 的 重 构 堵 首 ) 进 行 对 比试 听 的 基础 上 ,根据 
东 种 预 抑 约定 的 矿 度 对 失真 博 音 来 划分 质量 等 级 , 它 反 上 映 了 听 者 对 声音 质量 好 坏 程度 的 一 
种 主观 印象 。 语 首 主 观 评 价 方法 种 类 很 多 ,其 中 又 可 分 为 首 夺 (quality) 评 价 和 可 惜 度 
(intelligibility) 评 价 两 类 。 音 质 了 下 接 反 映 评 昕 人 对 输出 二 首 质 量 好 坏 的 综合 意见 ,包括 日 人 然 
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度 和 可 辨识 说 话 人 能 力 等 方面 ; 而 可 恒 度 则 反映 了 评 听 人 对 输出 博 音 内 容 的 识别 程度 。 音 
质 高 ,一 般 意 味 看 可 剧 度 也 高 ,但 反 过 来 却 不 一 定 。 

1. 可 懂 度 评价 方法 

可 展 度 评价 方法 有 以 下 几 种 。 

1) 判断 竟 插 测试 Cdiagnostic rhyme test,DRT) 

DRT 是 衡量 通信 系统 可 异 度 的 ANSI 标准 之 一 。 瑟 主要 用 于 低速 率 培 音 编 权 的 质量 
测试 。 这 种 测试 方法 使 用 硅 干 对 (通常 是 96 对 ) 同 韵母 单字 或 单 音 蔬 词 进行 测试 ,例如 中 文 
的 “为 ?和 ”* 费 ” ,英文 的 “veal 和” feel” 等。 测试 中 让 评 听 人 每 次 听 一 对 韵 字 中 的 某 个 音 , 然 
后 让 他 判断 所 听 到 的 音 是 哪 一 个 字 ,人 全体 评 听 人 判断 正确 的 百分比 就 是 DRT 得 分 。 通 稼 
认为 DRT 为 95% 以 上 时 其 清晰 度 为 优 ,85% 一 94% 为 良 ,75% 一 84% 为 中 ,65% 一 75% 为 
差 , 而 65% 以 下 为 不 可 接受 。 在 实际 通信 中 ,清晰 度 为 50% 时 , 整 句 可 懂 度 大 约 为 80%, 这 
是 因为 整 句 中 具有 和 较 高 的 元 余 度 ,即使 个 别 字 听 不 清楚 ,人 们 仍然 能 理解 整 句 话 的 意思 。 当 
清晰 度 为 900% 时 , 整 句 话 的 可 懂 度 已 接近 100%，。 

2) 改进 的 前 字 测 试 (modified rhyme test, MRT) 

MRT 也 是 评测 通信 系统 语音 可 懂 度 的 ANSI 标准 之 一 。 测 试 材料 由 6 组 ,每 组 50 个 
同 韵 母 的 字 或 词组 成 ,例如 汉语 中 “ 干 、 汉 、 烂 .但 、 半 、 乱 ”, 英 语 中 的 “pin、sin,tin,fin、din、 
win”, 主 要 用 于 区 分 起 始 辅音 或 末尾 辅音 。 评 听 人 针对 所 听 内 容 选择 出 6 个 词 中 哪个 与 之 

其 他 还 有 拼写 字母 测试 (spelling alphabet test,SpAT ) 以 及 语音 平衡 宇 表 法 (phonetically 
balance word list,PB) 等 。 

2. 音质 的 评价 方法 

音质 评价 方法 有 以 下 几 种 。 

1) 平均 意见 得 分 (mean opinion score, MOS) 

MOS 法 从 绝对 等 级 评价 法 (abosolute category rating,ACR) 发 展 而 来 ,用 于 对 话音 整 
体 满 意 度 或 语音 通信 系统 质量 的 评价 。ACR 是 用 于 针对 电话 通信 的 总 体质 量 评价 。MOS 
与 ACR 一 样 采 用 5 级 评分 标准 ,如 表 5-1 所 示 , 参 加 测试 的 评 听 人 在 听 完 受 测 博 音 后 ,从 这 
5 个 等 级 中 选择 其 中 茶 一 级 作为 他 对 所 测 语 音质 量 的 评价 。 人 全体 试验 者 的 平均 分 奈 是 所 测 
语音 质量 的 MOS 的 得 分 。MOS 是 目前 应 用 最 为 广泛 的 测试 方法 。 由 20 一 60 个 非 专 职 测 
试 者 参加 评 听 , 当 MOS 三 4.0 时 认为 测试 语音 是 高 质量 的 语 首 ,达到 长 途 电话 网 的 质量 要 
求 ,接近 于 透明 信道 编码 ,也 稼 称 之 为 网 络 质量 或 长 途 质 量 。MOS 在 3.5 左右 称 作 通信 质 
量 ,这 时 感到 重建 请 音质 量 下 降 , 但 不 妨碍 正 背 通话 ,可 以 满足 话音 系统 的 使 用 要 求 。MOS 
在 3.0 以 下 称 为 合成 语音 质量 , 系 指 一 些 声 码 需 合成 的 语音 所 能 达到 的 质量 , 它 一般 具 有 足 
够 的 可 慌 度 ,但 在 自然 度 及 讲话 人 确认 等 方面 不 够 好 ，。 

表 5-1 MOS 判 分 五 级 标准 


Bad 不可 接受 ) 
al 
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2) 判断 满意 度 测量 (diagnostic acceptability measure,DAM) 

DAM 的 方法 是 由 Dynasta 公司 推出 的 一 种 评价 语音 通信 系统 和 通信 连接 的 主观 语音 
质量 和 满意 度 的 评测 方法 。 它 具有 一 些 独特 的 优点 。 首 先 , 它 将 直接 途径 和 间接 途径 结合 
在 一 起 进行 主观 质量 评价 。 这 里 所 谓 的 直接 途径 是 指 要 求 评 听 人 针对 博 音 样本 给 出 个 人 主 
观感 觉 ,而 不 是 依赖 于 人 为 评价 等 级 的 划分 ; 间接 途径 则 是 指 评 听 人 根据 已 有 的 评测 标准 ， 
脱离 开 评 听 人 的 主观 喜好 来 评分 。 这 样 评 听 人 既 有 机 会 表达 个 人 主观 喜好 ,又 能 依 标准 对 
每 项 指标 进行 评测 。 例 如 ,在 育 景 噪声 下 两 名 评 听 人 或 许 对 语音 样本 的 整体 满意 度 意见 相 
左 ,但 他 们 很 有 可 能 会 对 语音 样本 中 摊 和 人 噪声 的 多 少 这 一 指标 达成 共识 。 其 次 ,DMA 方法 
要 求 评 听 人 可 将 评价 过 程 划分 为 总 共 21 个 等 级 ,其 中 10 级 是 考虑 信号 的 感觉 质量 ,8 级 考 
虚 背 景 情况 , 男 外 3 级 是 可 懂 度 、 清 晰 度 和 总 体 满意 度 。 上 总 之 ,DAM 是 对 语音 质量 的 综合 
评价 ,是 在 多 种 条 件 下 对 话音 质量 可 接受 程度 的 一 种 度量 。 它 采用 百分比 评分 。 

语音 主观 评价 当然 是 最 准确 ,也 是 最 容易 理解 的 一 类 方法 ,但 同时 也 是 十 分 消耗 时 间 、 
人 力 和 费用 的 ,并 且 经 党 受到 人 的 反应 的 内 在 不 可 重复 性 的 影响 。 针 对 这 些 不 足 , 许 多 基于 
客观 测度 的 语音 质量 的 客观 评价 方法 相继 被 提出 来 ,它们 都 是 建立 在 原始 语音 信号 和 失真 
语音 信号 的 数学 对 比 基 础 上 的 。 大 多 数 客观 评价 方法 是 用 数值 距离 ,或 者 描述 听觉 系统 如 
何 感知 质量 的 模型 来 量化 语音 质量 。 可 以 说 ,无 法 找到 一 个 绝对 完善 的 测度 和 十 分 理想 的 
测试 方法 。 一 般 地 ,客观 评价 都 要 借鉴 主观 评价 的 那 种 高 度 智能 和 人 性 化 的 过 程 , 其 优 劣 也 
往往 取决 于 与 主观 评价 结果 在 统计 意义 上 的 相关 程度 。 目 前 所 用 的 客观 测度 方法 可 以 分 为 
时 域 测度 、 频 域 测度 和 其 他 测度 3 类 方法 。 时 域 客观 测度 定义 为 被 测 系 统 的 输入 语音 与 输 
出 语音 在 时 域 波形 比较 上 的 失真 度 。 主 要 有 信 咯 比 C(SNR) 和 分 段 信 了 品 比 (SNR,。。) 等 几 种 方 
法 。 其 信 噪 比 取 值 越 大 ,语音 质量 越 好 。 频 域 客 观测 度 采 用 的 是 谱 失 真 测度 的 方法 ,并 模仿 
人 耳 的 一 些 听 觉 特 性 ,使 测度 结果 尽量 与 主观 感觉 相 吻 合 。 具 体 测 度 方法 有 : 对 数 谱 距离 
测度 、LPC 倒 谱 距离 测度 、Bark 谱 测 度 、Mel 谱 测 度 等 。 在 频 域 测度 中 ,一 般 计 算 结 果 取 值 
越 小 ,说 明 失 真 语 首 与 原始 语音 越 接 近 , 即 语音 质量 越 好 。 除 时 域 客观 测度 和 频 域 客观 测度 
外 ,还 有 在 此 两 者 的 基础 上 发 展 起 来 的 其 他 测度 方法 ,例如 相关 函数 法 、 转 移 概 率 距离 测度 
以 及 组 合 距 离 测度 等 。 


5.5 语音 编码 国际 标准 


由 于 各 种 运算 、 存 储 需 件 的 迅速 发 展 , 以 及 语音 通信 和 存储 领域 对 高 质量 语音 编码 需求 
的 日 益 增加 ,语音 编码 技术 在 近 十 几 年 得 到 了 突破 性 的 发 展 ,出 现 了 许多 实用 的 高 质量 的 请 
音 编 码 算法 。 针 对 不 同 的 应 用 ,国际 电 联 ITU 和 一 些 地 区 标准 协会 已 制订 了 一 系列 的 语音 
编 公 标准 。 这 些 标准 的 制订 为 应 用 在 通信 网 络 中 的 各 种 语 首 编码 问 的 菲 容 性 提供 了 有 力 的 
保证 。 

关于 波形 编码 的 国际 标准 主要 由 ITU-T 制订 ,为 G 系列 标准 ,如 表 5-2 所 示 。 其 中 G. 726 
为 G.721 与 G. 723 的 合成 ,G. 726 推出 后 ,G. 723 和 G.721 就 删除 了 。 
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表 5-2 波形 编码 国际 标准 


标 准 制订 年 份 编 公 速率 (kbit/s) 编码 算法 话音 质量 


40/32/24/16 ADPCM 长 途 
(G721.G: 723) (1984 ,1986) 有 氏 鞍 


G. 722 64/56/48 SB 十 ADPCM 长 途 
9 影 啊 的 混合 编 妈 国际 标准 和 地 区 性 标准 主要 由 ITU-T 与 数字 蜂 需 标准 组 织 制订 ,如 
表 D-3 所 示 总 
表 5-3 混合 编码 国际 和 地 区 性 标准 
标 编码 算法 话音 质量 


G. 728 ITUT 1994 LD-CELP ”| 长 这 


ET KE 
DC 全 1 


注 : ETSI 一 一 欧洲 电信 标准 学 会 ; TLA 一 一 电信 工业 协会 ; RCR 一 一 无 线 电 系统 研发 中 心 。 


5.6 感知 音频 编码 


前 面 介 绍 的 是 针对 语音 信号 的 编码 原理 和 编码 方法 。 然 而 现实 世界 中 存在 大 量 非 语 音 
的 其 他 音频 信号 ,如 音乐 .音效 等 ,这 些 音频 信号 的 带 视 比 语 音信 号 要 宽 , 其 产生 机 理 也 与 语 
音 有 很 大 的 差异 ,所 以 语音 编码 算法 并 不 能 很 好 地 适用 于 这 些 音 频 信 号 。 近 十 几 年 来 ,出 现 
了 不 少 针对 一 般 音 频 信 号 的 压 纵 编 公 技 术 ,例如 MPEG-1 Layer3、MPEG-2 AAC、Dolby 实 
验 室 的 AC-3 微软 的 WMA、Xiph 公司 的 Ogg Vorbis、Lucent 科技 的 EPAC 和 有 索尼 的 
ATRAC-3 等 。 这 些 编码 在 时 频 域 分 析 环 节 所 采用 的 技术 各 不 相同 ,如 MPEG-1 Layer3 条 
用 了 5.1.7 节 中 所 述 的 子 带 编码 方法 ,而 Dolby 的 AC-3 则 采用 了 5. 1. 8 节 所 述 的 变换 域 
编码 方法 。 

虽然 采用 的 是 不 同 的 时 频 域 分 析 方 法 ,但 这 些 音频 信号 的 编码 技术 也 有 一 些 共性 的 特 
点 ,它们 都 在 编码 的 量化 环节 充分 利用 了 人 耳 的 感知 机 理 , 保 留 人 耳 能 听 到 的 音频 信和 号 ,而 
对 感知 灵敏 度 小 或 接近 不 可 感知 的 音频 信和 号 进行 大 幅度 的 压缩 ,从 而 在 保证 主观 听觉 效果 
的 前 提 下 ,达到 最 好 的 压缩 效果 , 即 用 最 少 的 比特 数 来 代表 原始 信和 号。 由 于 这 类 编码 技术 充 
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分 利用 了 人 耳 的 感知 机 理 , 因 而 梨 被 统称 为 感知 编码 。 本 万 将 对 感知 编 码 技术 进行 概要 


外 绍 。 


5.6.1 感知 编码 的 一 般 框 架 


对 一 个 典型 的 感知 音频 编码 器 , 它 先 将 时 域 的 声音 信号 转换 成 频 域 的 信号 ,再 借 由 听觉 
感官 模型 在 频 域 上 计算 出 人 耳 听 觉 可 允许 的 量化 误差 ,然后 利用 此 量化 误差 值 对 音频 进行 
编码 ,使 编码 后 的 误差 人 耳 感 觉 不 出 来 或 者 在 可 以 忍受 的 范围 内 。 在 音频 感知 编码 中 使 用 
的 听觉 感官 模型 又 常 被 称 为 心理 声学 模型 。 

一 般 的 感知 音频 编码 器 的 主要 架构 如 图 5-29 所 示 ,包含 了 心理 声学 模型 的 分 析 、 信 号 
的 时 频 域 转换 分 析 、 量 化 及 比特 分 配 和 无 损 炉 编码 等 基本 部 分 。 


信号 的 时 域 / 频 域 | _ 参 如 
转换 分 析 


心理 声学 模型 
分 析 


图 5-29 感知 编码 的 一 般 框架 


量化 和 编码 


比特 分 配 


对 首 频 信号 首先 进行 时 频 域 分 析 , 提 取 时 频 域 参数 ,然后 对 时 频 域 参数 进行 量化 编码 。 
对 大 多 数 首 频 感知 编码 方法 而 言 ,一 般 在 频 域 上 计算 编码 参数 ,如 MPEG-1 Layer3 将 子 禹 
编码 和 MDCT 变换 编码 相 结 合 来 得 到 频 域 编码 参数 。 

在 量化 编码 过 程 中 ,一 个 重要 的 问题 就 是 如 何在 比特 分 配 过 程 中 ,将 有 限 的 比特 数 合理 
地 分 配给 各 个 子 带 或 变换 系数 。 感 知 编码 的 一 个 重要 特征 ,就 是 基于 心理 声学 模型 的 分 析 
结果 来 分 配 比 特 数 。 音 频 信 号 的 接受 方 是 人 耳 , 虽 然 声 音 是 客观 存在 的 ,但 是 人 的 主观 感觉 
和 客观 实际 并 不 完全 一 致 ,人 类 的 听觉 系统 对 声音 的 音 高 、. 音 强 和 动态 频谱 等 具有 分 析 感 知 
能 力 。 这 些 听 和 觉 特性 在 心理 声学 模型 分 析 时 需要 加 以 考虑 。 目 前 ,音频 感知 编码 的 心理 声 
学 模型 主要 利用 的 是 听觉 掩蔽 效应 ,通过 来 用 一 种 近似 的 数学 模型 ,对 掩蔽 效应 进行 定量 分 
析 ,计算 出 掩蔽 国 值 曲线 ,从 而 在 比特 分 配 过 程 中 确保 所 引入 的 量化 噪声 尽 可 能 处 于 掩 责 国 
值 曲 线 下 方 ,这 样 就 可 保证 在 量化 时 即使 引入 了 量化 噪声 也 无 法 被 人 耳 听 见 。 

上 述 量化 和 编码 过 程 显然 是 一 种 有 损 压 缩 ,在 感知 编码 中 通常 会 在 有 损 编 码 的 基础 上 
引入 一 个 无 损 炉 编 码 环 节 , 对 有 损 压 缩 的 结果 进一步 的 压缩 。 霍 夫 曼 (huffman) 编 码 是 最 
党 采用 的 技术 , 它 合理 利用 信 源 的 统计 特性 ,采用 非 等 长 编码 ,对 概率 大 的 信 源 符号 赋 了 长 
度 较 小 的 码 字 ,对 概率 小 的 信 源 符号 赋予 长 度 较 大 的 码 字 ,使 平均 码 长 尽 可 能 小 。 堆 夫 曼 码 
的 详 码 具有 唯一 性 。 


5.6.2 心理 声学 模型 


心理 声学 模型 是 感知 编码 算法 的 核心 , 它 是 否 能 真实 地 反映 人 耳 的 主观 感知 特性 决定 
了 整个 编码 弟 编 码 质量 的 优 劣 。 心 理 声 学 模型 的 基本 思想 就 是 不 依据 音频 波形 本 屿 的 相关 
性 和 人 的 发 音 机 理 ,而 利用 人 的 听觉 系统 的 特性 来 达到 压缩 音频 数据 的 目的 ,同时 使 失真 尽 
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可 能 不 被 觉察 出 来 。 在 MPEG-1 Layer3 和 AAC 标准 及 AC-3 标准 中 都 来 用 了 心理 再 学 模 
型 。 这 些 模型 将 听闻 、 临 界 频 市 、 时 域 瓜 区 和 频率 掩 珊 等 概念 紧密 相连 ,用 客观 的 参数 指标 
有 反映 主观 的 听 先 效 来 ,以 使 量化 ,编码 过 程 中 产生 的 量化 曲 再 不 多 被 感 基 ,达到 忆 效 率 、 忆 保 
真 编码 的 目的 。 

在 MPEG 音频 标准 中 给 出 了 两 种 心理 声学 模型 ,心理 声学 模型 | 和 心理 声学 模 
型 用 。 前 者 结构 较为 重音 ,计算 复 洒 度 较 小 ,适用 于 对 压缩 比 要 求 不 高 的 场合 ,主要 应 用 
在 MPEG-1 Layerl 和 Layer2 中 。 后 者 计算 禾 灯 上 度 大 ,但 能 够 提供 更 为 精确 的 声学 参数 ,已 
被 MPEG-1 Layer3、MPEG-2 AAC 以 及 MPEG-4 AAC 所 采用 。 两 个 心理 声学 模型 都 通过 
计算 信号 的 信和 掩 比 (signal-to-mask ratios,SMR ) 来 为 编码 兹 服务 ,基于 SMR 值 对 每 个 频 市 
进行 比特 分 配 ,SMR 值 越 大 给 予 的 比特 数 越 多 ,反之 则 越 少 。 在 比特 率 一 定 的 条 件 下 ,编码 
质量 的 优 劣 取决 于 对 每 个 频 市 中 比特 分 配 是 否 得 当 。 本 节 以 心理 声学 模型 有 [的 计算 过 程 为 
例 来 介绍 其 算法 思想 。 

心理 声学 模型 下 采用 FFT 滤波 硕 组 对 输入 信号 进行 频 域 分 析 ,这 一 变换 过 程 与 编码 天 
的 频 域 分 析 是 相互 独立 的 ,如 在 MPEG-1 Layer3 和 MPEG-2 AAC 中 ,编码 器 采用 改进 的 
离散 余弦 变换 (MDCT) 分 析 滤 波 豆 组 来 获得 频 域 参数 ,而 其 心理 声学 模型 则 基于 FFT 进行 
频谱 分 析 。 

首先 对 音频 信号 x(2) 进 行 加 窗 处 理 , 然 后 对 其 进行 FFT 变换 ,使 用 极 坐 标 表示 ,得 到 
其 频谱 幅 值 r(w) 和 相位 f(w)。 由 于 编码 颖 需要 有 效 平 衡 音 频 编 码 的 频 域 分 辩 率 和 时 域 分 
装 率 ,所 以 其 MDCT 变换 可 以 米 取 两 种 不 同 的 块 变换 类 型 (长 块 和 短 块 )。 对 应 地 ,在 心理 
声学 模型 计算 中 ,也 需要 对 同一 帆 音 频 信 号 分 别 计算 出 两 和 侣 频 域 表示 ,如 计算 一 组 2048 氮 
的 FFT 和 八 组 256 点 的 FFT。 

然后 根据 频谱 系数 得 到 各 临界 频 币 内 的 信号 能 量 和 不 可 预测 性 测度 (unpredictability 
measurement) 。 先 根据 前 两 帧 的 r(w) 和 f(w) 来 得 到 当前 帆 的 预测 频谱 pred(w) 和 和 
f_pred(w), 有 

r_pred{(w) = 2.0 Xr (0w) OO— rs (0w) (9-95) 
Fired(w) = 2.0xXx fi(w) OO— fw) (5-96) 
ri-1(w) 和 f,-1《w) 为 当前 帆 前 面 第 一 帆 的 频谱 幅 值 和 相位 ,x,-;(w) 和 f-;(w) 为 当前 帆 前 
面 第 二 由 的 频谱 幅 值 和 相位 。 接 看 ,根据 频谱 幅 值 和 相位 的 预测 值 , 以 及 频谱 幅 值 和 相位 的 
实际 值 进行 信号 不 可 预测 性 c(w) 的 计算 : 
cw) = (rlw)cos(r(w)) —r_ pred(w)cos(r_pred (w)))° 
二 (flw)cos(f(w))— fF _pred(w)cos(f_pred (o) ))2 J /rw) + abs(r_pred (w))) 
(5-97) 
预测 值 与 实际 值 旧 的 差距 越 大 , 则 不 可 预测 性 也 越 大 。 在 心理 声学 模型 中 ,不 可 预测 性 
c(w) 表 现 为 频率 的 函数 。 在 每 个 临界 频 珊 上 计算 该 频 市 的 不 可 预测 性 c(5) 和 能 量 e(5), 计 


算 方 法 如 下 。 
b_high 
eb) 一 >，c(o)r(o) (5-98) 
二 pb low 
b high 
e(b) = 2 rw)’ (5-99) 


== iow 
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式 中 ,0 是 特定 临界 频带 的 序号 ,5_low 和 65_high 分 别 为 该 临界 频带 的 频率 下 界 和 上 界 。 在 
实际 计算 中 ,还 需要 将 这 两 项 分 别 与 扩展 图 数 进行 卷 积 运算 , 得 到 新 的 不 可 预测 性 和 能 量 ， 
从 而 考虑 了 其 他 临界 频带 对 本 临界 频带 的 掩蔽 影响 。 

音频 信号 中 的 音调 (纯音 ) 成 分 和 非 首 调 ( 唱 声 ) 成 分 有 具有 不 同 的 掩 项 性 ,这 会 影响 到 附 
近 的 掩蔽 准 值 ,因此 为 了 计算 一 个 临界 频带 的 总 掩蔽 国 值 ,必须 对 音调 成 分 和 非 首 调 成 分 加 
以 区 分 。 可 以 根据 频带 的 不 可 预测 性 做 出 该 频带 是 否 是 音调 成 分 的 判断 。MPEG 的 心理 
声学 模型 没有 直接 区 分 音调 成 分 和 非 首 调 成 分 ,而 是 将 首 调 指标 表达 成 一 个 音调 索引 也 
数 。 该 函数 反映 该 频段 是 音调 成 分 的 概率 大 小 ,避免 了 直接 区 分 判决 而 引入 的 判决 误差 。 
临界 频 市 2 的 音调 索引 函数 (5) 计算 如 下 : 

tb (6b) 一 一 0. 299 一 0. 43log, (c(b)) (5-100) 

c(D) 为 临界 频 融 的 不 可 预测 性 。z6(65) 的 取 值 在 0~~1 之 间 , 越 趋 癌 1 表明 信号 更 接近 音 
调 , 反 之 则 接近 非 音 调 。 

根据 音调 索引 郴 数 ,可 以 进一步 计算 每 个 临界 频 市 中 的 信 了 品 比 SNR(2) 。 

SNR (CD) = 16(6) XxX TMN (D+ (1 —168(6)) x NMT (CD) (5-101) 
式 中 ,TMN(G2) 为 临界 频 币 5 的 音调 对 品 再 的 掩蔽 (tone masking noise) ,NMT(P) 为 临界 频 
带 5 的 噪声 对 音调 的 掩蔽 (noise masking tone)。 一 般 所 有 临界 频带 上 的 NMT(5) 设 为 
6dB,TMN(5) 设 为 18dB。 

根据 信 品 比 SNR(5) 和 能 量 e(C) ,可 以 如 下 计算 临界 频 市 的 掩蔽 国 值 n6(5): 

nehy = Dp) ww IO TE (5-102) 
式 中 ,10-sRo 的 部 分 为 功率 比 , 所 以 22(2) 给 出 了 此 临界 频带 的 噪声 闽 值 。 在 实际 计算 
中 还 要 引入 听 国 对 xp2(O) 进 行 修正 。 听 国 又 被 称 为 绝对 听觉 门限 ,是 指 一 个 人 在 没有 噪声 
的 环境 下 ,就 声音 的 某 一 个 频率 点 (纯音 ), 信 号 能 产生 听觉 感知 的 最 低能 量 幅 度 。 即 若 纯音 
言 号 幅度 小 于 该 频率 的 听 闪 ,人 就 无 法 感知 了 。 显 见 我 们 计算 得 到 的 临界 频带 的 掩蔽 阔 值 
右 小 于 其 听 国 是 没有 意义 的 ,此 时 应 将 掩蔽 国信 设 为 听 国 。 听 国 是 根据 大 量 心 理 声学 实验 
得 出 的 ,对 心理 声学 模型 而 言 是 预制 的 。MPEG 标准 根据 输入 PCM 信号 的 采样 率 的 不 同 
制定 了” 频率、 临界 频带 比率 和 听 阀 ?” 表 ,从 表 中 可 以 查 出 频谱 的 听 交 的 值 。 

通过 上 述 计 算 ,我 们 得 到 了 各 临界 频 刘 的 掩蔽 国 值 ,然而 编码 硕 频 域 分 析 所 采用 的 是 
MDCT 滤波 硕 组 ,其 对 频 市 的 划分 与 临界 频带 的 划分 方法 并 不 相同 ,因而 还 需要 将 在 临界 
频 市 上 得 到 的 参数 转换 到 MDCT 所 得 到 的 各 子 市 上 去 ,这 些 子 市 被 称 为 缩放 因 了 于 频 市 
(scalefactor band) 。 基 于 缩放 因 于 频 市 上 的 提 贡 国 值 进 而 可 以 得 到 信 手 比 SMR , 它 表 示 为 
FFT 频谱 能 量 和 噪声 的 比值 。 

在 心理 再 学 模型 中 还 需要 计算 感知 炉 (perceptual entropy)。 感 知 和 是 1988 年 
Johnson 等 利用 心理 声学 模型 的 掩 役 现象 和 信号 的 量化 原理 定义 的 ,用 来 测量 首 频 信号 中 
威 芭 相关 的 信息 。 感 苔 炉 一 般 以 位 (bit) 作 为 单位 ,实际 上 表示 首 频 信号 压 贿 的 理论 极限 。 
感知 炉 PE 可 以 由 各 临界 频带 的 能 量 e(2) 和 掩蔽 国 值 nb5(5) 来 求 得 

PE 一 一 > (2 _ high —b_low)logi (nb (6)/ (el(b) 十 1)) (5-103) 


式 (5-103) 对 所 有 的 临界 频带 求 和 ,5_low 和 0_high 分 别 为 临界 频 市 上 的 频率 下 界 和 上 界 。 
自 先 通 过 感知 烂 信息 可 以 为 编 色 僧 MDCT 变换 选择 块 变 换 类 型 ,判断 使 用 长 块 还 是 短 
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块 。 将 感知 箭 与 一 个 切换 国 值 相 比较 ,并 参考 前 一 帧 的 块 类 型 情况 决定 当前 的 块 类 型 。 此 
外 , 感 和 糯 信 息 也 可 以 在 无 损 炉 编 码 环 古 用 于 确定 所 需要 的 比特 数 。 


5.6.3 常用 的 感知 编 妈 标 准 


1. MPEG-1 Layer3 

通常 被 简称 为 MP3, 是 MPEG-1 的 往生 编码 方案 (ISO/IEC11172 一 3,1992)。MP3 是 
1993 年 由 德国 Fraunhofer IIS 人 研究 院 和 汤姆 生 公司 合作 人 研制 的 ,是 目前 最 为 普及 的 首 频 压 
缩 格式 。 它 采用 了 子 市 分 解 .分析 滤波 问 组 ,变换 域 编码 、 炉 编码 动态 比特 分 配 、 非 同一 量 
化 编码 和 心理 声学 分 析 等 技术 ,支持 32kHz、44. lkHz 和 48kHz 采样 频率 下 对 16 比特 
PCM 信号 进行 编码 ,同时 ,提供 单 声 道 . 立体声 道 .两 个 独立 双 声 道 和 联合 立体 声 等 四 种 音 
频 声 道 模 式 。 

随 看 网 络 的 普及 ,这 种 开放 式 的 痛 频 编码 格式 ,受到 了 数 以 亿 计 的 用 户 的 欢迎 ,各 种 与 
MP3 相关 的 软件 产品 层出不穷 ,而 且 更 多 的 人 硬件 产品 也 开始 支持 MP3 ,我 们 能 够 买 到 的 
VCD/DVD 播放 机 有 很 多 都 能 够 支持 MP3 ,还 出 现 了 许多 便携 的 MP3 播放 器 等 。 

MP3 编码 流程 见 图 5-30 所 示 。PCM 信号 分 两 路 进入 编码 带 , 一 路 进入 多 相 滤 波 冀 组 
中 分 解 为 32 个 等 之 宽 的 关键 采样 的 子囊 ,然后 再 经 过 MDCT 变换 得 到 频 域 内 的 频谱 系数 ; 
另 一 路 PCM 输入 数据 进行 FFT 变换 ,进行 心理 声学 分 析 ,得 到 每 个 子 带 的 信 掩 比 SMR 等 
参数 送信 其 他 模块 。 把 心理 声学 模型 分 析 模 块 输出 的 心理 声学 参数 送 到 量化 编码 模块 , 计 
算出 编码 所 需 的 比特 数 ,然后 在 信 掩 比 和 所 需 比 特 数 的 指导 下 ,对 经 滤波 兹 组 输出 的 频谱 系 
数 进行 非 线性 量化 和 和 霍 夫 曼 无 损 编码 。 最 后 由 比特 座 、 采样 计 和 量化 编码 后 的 频谱 等 共同 


形成 最 终 的 比特 流 。 
音频 信号 | 32 路 多 相 量化 码 流 
滤波 兹 组 起 夫 曼 编码 


模型 分 析 


图 5-30 ”MP3 编码 的 简略 框图 


2. AC-3 

Dolby AC-3 是 美国 Dolby 实验 室 于 1990 年 提出 的 ,到 了 1997 年 初 ,Dolby 实验 室 正 式 
将 其 改 为 “Dolby 数码 环 缠 再 ”(dolby surround digital) ,和 营 称 为 Dolby Digital。 它 是 适用 于 
完 频 市 数字 音频 信号 的 变换 编码 算法 ,也 是 数字 音频 信号 压缩 的 典型 应 用 。 该 算法 可 以 满 
足 单 声 道 到 5. 1 声 道 数字 音频 的 编码 要 求 , 来 用 时 域 混合 抵消 技术 ,并 运用 人 和 耳 掩 项 效应 ， 
从 而 对 PCM 信 源 进行 高 效 压 缩 ,恢复 质量 与 原音 相差 无 几 。 

AC-3 编码 采用 的 5. 1 声 道 环绕 立体 声 系 统 , 所 有 的 5 个 全 带宽 声 道 和 低频 效果 声 道 实 
行 统一 编码 ,使 之 成 为 复合 数据 流 ,其 比特 流 所 人 允许 的 采样 频率 可 以 为 48kHz、44. 1kHz 或 
32kHz 中 的 任何 一 种 ,声音 样本 精度 为 20 比特 ,并 且 所 文 持 的 码 率 从 32Kbps 到 640Kbps 
不 等 。 目 前 ,数字 音频 压缩 AC-3 算法 已 在 很 多 领域 得 到 广泛 应 用 ,如 DVD、 激光 视盘 、 
HDTV 多 媒体 等 , 它 是 发 展 家 庭 影院 的 关键 技术 之 一 。 
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图 5-31 显示 的 是 AC-3 的 编码 流程 。PCM 音频 信号 在 进入 MDCT 滤波 器 组 进行 时 频 
域 变 换 之 前 ,需要 先 经 过 暂 态 检测 右 判 断 音频 信和 号 的 突变 性 , 奢 信 和 号 变化 比较 平缓 , 则 在 进 
行 MDCT 变换 时 使 用 长 窗 , 即 对 每 个 音频 块 进行 512 点 MDCT 变换 ; 奢 信 号 变化 剧烈 , 则 
将 音频 块 划分 成 2 个 256 点 MDCT 变换 。 得 到 的 频 域 系 数 按 照 指数 形式 分 解 为 指数 和 尾 
数 两 个 部 分 ,其 中 尾数 为 规整 化 后 的 大 于 0 小 于 1 的 数 ,指数 为 0 一 24 之 间 的 整数 。 然 后 ， 
这 些 指数 和 尾数 分 别 送 到 指数 编码 郁 和 尾数 量化 需 中 进行 编码 ,而 在 进行 尾数 的 量化 时 , 必 
须 将 MDCT 变换 后 的 频谱 包 络 送 到 感知 模型 中 ,通过 频谱 包 络 计算 出 掩蔽 阔 值 ,再 通过 比 
特 分 配 模 块 计 算出 量化 比特 数 。 最 后 ,经 过 编码 后 的 尾数 和 指数 信息 ,感知 模型 参数 及 某 些 
比特 信息 参数 组 合成 AC-3 码 流 , 即 完成 AC-3 编码 过 程 。 


频谱 包 络 指数 
et 感知 模型 | 


尾数 量化 徊 比特 分 配 


图 5-31 AC-3 编码 的 简略 框图 
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3. AAC 

AAC 是 1997 年 制定 的 MPEG-2 advanced audio coding 的 缩写 , 它 是 由 MP3 专利 的 拥 
有 者 Fraunhofer IIS 联合 Dolby、AT&T、 索 尼 , 苹 果 等 产业 巨头 共同 开发 出 的 一 种 数字 音 
频 压 缩 方 式 。 它 增加 了 诸如 对 立体 声 的 完美 再 现 、 比 特 流 效果 音 扫 描 、 多 媒体 控制 版 权 保 
护 、 降 品 等 MP3 没有 的 特性 ,在 音频 压缩 后 仍 能 完美 地 再 现 CD 的 音质 。 它 对 大 部 分 立体 
声 信号 在 128Kbps 码 率 下 具有 感知 透明 的 特性 ,在 96Kbps 人 码 率 的 表现 超过 了 128Kbps 的 
MP3 格式 ,但 是 对 早期 的 标准 不 具有 后 回 莱 容 性 。 

相对 MP3 等 以 往 的 音乐 格式 ,AAC 具备 了 不 少 优点 ,如 : 压缩 率 高 ,可 以 有 更 小 的 文 
件 尺 寸 ( 音 频 压缩 比 可 达到 15 : 1 一 20 : 1) 获 得 更 高 的 音质 ; 支持 多 声 道 ,最 多 可 达 48 个 全 
音域 声 道 ; 更 高 的 解析 度 , 可 支持 8 一 96kHz 的 采样 频率 ; 提升 的 解码 效率 ,解码 播放 所 占 
的 资源 更 少 ; 允许 对 多 媒体 信息 进行 编 解码 等 。 

AAC 的 算法 复杂 度 比 MP3 高 很 多 ,也 具有 多 声 道 、 高 采样 挛 和 低 码 率 下 的 高 音质 等 特 
点 ,非常 适合 未 来 的 DVD 应 用 。AAC 也 得 到 了 请 基 亚 ,苹果 松下 等 多 家 移动 娱乐 产品 巨 
头 的 易 力 支持 ,另外 ,出 现 了 一 些 编码 软件 ,如 FAAC,Nero AAC, 苹 果 公 司 的 QuickTime/ 
iTunes 等 。AAC 在 移动 通信 、 网 络 电话 .在线 广 播 等 领域 ,被 认为 是 立体 声 与 多 声 道 音频 
言 号 编码 的 下 一 代 通 用 标准 。 

后 续 发 展 的 MPEG-4 音频 标准 ,MPEG-4 AAC, 是 在 MPEG-2 AAC 的 基础 上 ,增加 了 

- 些 新 的 编码 特性 ,从 而 进一步 降低 音频 码 率 、 提 高 编码 效率 。 
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第 6 章 


CHAPTER 6 


语音 识别 (Cspeech recognition) 是 机 兹 通过 识别 和 理解 过 程 把 人 类 的 语音 信号 转变 为 相 
应 的 文本 或 命令 的 技术 。 其 根本 目的 是 全 究 出 一 种 具有 听 筑 功能 的 机 融 , 能 直接 接 党 人 的 
语音 ,理解 人 的 意图 ,并 做 出 相应 的 反应 。 从 技术 上 看 , 它 属 于 多 维 梗 式 识别 和 智能 接口 的 
范畴 。 语 音 识别 技术 是 一 项 集 声 学 .语音 和 学. 计算机、 信息 处 理 . 人 工 重 能 等 于 一 身 的 绽 合 技 
术 。 可 广 沁 应 用 在 信息 处 理 、 通 信和 与 电子 系统 日 动 控制 等 领域 。 

让 机 融 听 懂 人 类 语言 ,一 二 是 人 类 人 妃 求 的 目标 。 要 达到 这 一 目标 面临 大 诸 多 的 困难 。 
这 些 困 难 具 体 表 现在 : 请 音信 号 的 声学 特征 随 与 之 前 后 相连 的 语音 不 同 而 产生 很 大 的 变 
化 , 且 连 续 语 音 流 中 各 语音 单位 之 间 不 存在 明显 的 边界 ; 久 语 音 特 征 随 发 音 人 的 不 同 、 发 音 
人 生理 或 心理 状态 的 变化 而 产生 很 大 的 差异 ; 印 环 境 噪 声 和 传输 设备 的 差异 也 将 直接 影 啊 
语音 特征 的 提取 ; 由 一 个 语句 所 表达 的 意思 与 上 下 文 内 容 , 说 话 时 的 环境 条 件 及 文化 背景 
等 因 系 有 关 , 而 语句 的 语法 结构 又 是 多 变 的 ,并 且 请 境 信 息 几 乎 是 计算 机 语音 识别 无 法 利用 
的 ,所 有 这 些 都 给 语意 的 理解 带 来 很 大 的 困难 。 

由 于 出 发 点 不 同 , 识 别 又 分 为 说 话 人 识别 (speaker recognition) 和 语音 识别 。 就 说 话 人 识 
别 来 看 ,可 分 为 与 文本 有 关 (text-dependent) 和 与 文本 无 关 (text-independent) 的 两 类 。 从 用 
途上 看 ,可 分 为 说 话 人 辨认 (speaker identification) 和 说 话 人 确认 (speaker verification)。 前 
者 判定 某 一 竺 识别 的 声音 是 多 个 话 者 中 的 哪 一 个 ,是 多 选 一 的 问题 ,属于 闭 集 辨识 范畴 。 后 
者 判定 一 个 等 识别 的 声音 “是 或 不 是 ” 某 一 特定 话 者 的 语音 ,其 输出 只 有 两 种 结果 ,为 肯定 或 
否定 的 问题 。 有 关 说 话 人 识别 的 详细 内 容 , 将 在 第 7 章 中 进行 介绍 。 

就 语音 识别 而 言 , 也 存在 着 以 下 几 种 不 同 的 分 类 方法 。 

1. 按 词汇 量 大 小 分 

每 个 语音 识别 系统 都 有 一 个 词汇 表 , 系 统 只 能 识别 词汇 表 中 所 包含 的 词 条 。 通 党 按 词 
汇 量 可 分 为 小 词汇 量 、 中 词汇 量 和 大 词汇 量 。 一 般 小 词汇 量 包 括 10 一 100 个 词 ,而 中 词汇 量 
大 约 包 括 100 一 500 个 词 条 ,相应 的 大 词汇 量 至 少 包 含 500 个 以 上 的 词 条 。 一 般 情况 下 , 语 
音 识 别 的 识别 率 会 随 看 词汇 量 大 小 的 增加 而 下 降 , 因 此 ,语音 识别 的 研究 难度 是 随 大 词汇 量 
的 增加 而 逐渐 增加 的 。 
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2。， 按 发 育 万 式 分 

语音 识别 可 以 分 为 孤立 词 (isolated word) 识 别 , 连 接 词 (connected word) 识 别 、 连 续 语 
音 (Ccontinuous speech) 识 别 以 及 关键 词 检 出 (keyword spotting) 等 。 在 抓 立 词 识 别 中 ,机 需 
只 是 识别 一 个 个 孤立 的 首 广 、 词 或 短语 等 ,并 给 出 具体 识别 结果 ; 连续 语音 识别 中 ,机 兹 识 
别 连续 自然 的 书面 表 读 形式 的 语 首 ; 而 连接 词 识 别 中 ,发 音 方 式 介 于 扳 立 词 和 连续 语音 
间 , 它 表面 上 看 象 连续 语音 发 音 ,但 能 明显 地 感觉 到 音 与 音 之 间 有 停顿 。 这 时 通常 可 以 采用 
孤立 词 识 别 的 技术 进行 串 接 来 实现 ; 对 关键 词 检 出 ,通常 是 用 于 说 话 人 以 类 似 自由 交谈 的 
方式 发 首 , 称 为 日 发 (spontaneous) 发 痛 方 式 时 ; 在 这 种 发 彰 方 式 下 ,存在 看 各 种 各 样 影 啊 
发 音 不 流畅 的 因 系 ,如 犹 驳 、 俘 顿 .更 正 等 ,并 且说 话 人 发 音 中 存在 看 大 量 的 不 是 识别 词 表 中 
的 词 ,判断 理解 说 话 人 的 意思 ,只 从 其 中 一 些 关 键 的 部 分 就 可 做 出 决定 ,因此 只 需 进 行 其 中 
的 关键 词 的 识别 。 

3. 按说 话 人 分 

可 分 为 特定 说 话 人 (speaker-dependent) 和 非特 定 说 话 人 (speaker-independent) 两 种 。 
前 着 只 能 识别 固定 某 个 人 的 声音 。 其 他 人 要 想 使 用 这 样 的 系统 ,必须 事先 输入 大 量 的 博 音 
数据 ,对 系统 进行 训练 ; 而 对 后 者 ,机 冀 能 识别 任意 人 的 发 首 。 由 于 请 音信 号 的 可 变性 很 
大 ,这 种 系统 要 能 从 大 量 的 不 同人 (通常 30 一 40 人 ) 的 发 音 样本 中 学 习 到 非特 定 人 的 发 音速 
度 ,请 首 强度 ,发 首 方 式 等 基本 特征 ,并 归纳 出 其 相似 性 作为 识别 的 标准 。 使 用 者 无 论 是 否 
参加 过 训练 部 可 以 共用 一 套 参 考 模板 进行 语音 识别 。 从 难度 上 看 ,特定 说 话 人 的 语 译 识别 
比较 简单 ,能 得 到 较 高 的 识别 率 , 并 且 目 前 已 经 有 商品 化 的 产品 ; 而 非特 定 人 识别 系统 , 通 
用 性 好 .应 用 面 广 ,但 难度 也 较 大 ,不 容易 获得 较 高 的 识别 率 。 

4. 从 语音 识别 的 方法 分 

有 模板 匹配 法 .随机 模型 法 和 概率 霹 法 分 析 法 。 这 些 方法 都 属于 统计 模式 识别 方法 。 
其 识别 过 程 大 致 如 下 : 前 先 提 取 语 首 信 号 的 特征 构建 参考 模板 ,然后 用 一 个 可 以 衡量 未 知 
模式 和 参考 模板 之 间 似 人 然 度 的 测度 函数 ,选用 一 种 最 佳 准 则 和 专家 知识 做 出 识别 决策 ,给 出 
识别 结果 。 其 中 模板 匹配 法 是 将 测试 语 首 与 参考 模板 的 参数 一 一 进行 比较 与 匹配 ,判决 的 依 
据 是 失 丰 测度 最 小 准则 。 随 机 模型 法 是 一 种 使 用 隐 马 尔 可 夫 模 型 (HMM) 来 对 似 然 函 数 进 行 
估计 与 判决 ,从 而 得 到 相应 的 识别 结果 的 方法 。 由 于 隐 马 尔 可 夫 模 型 具有 状态 函数 ,所 以 这 个 
方法 可 以 利用 语音 频谱 的 内 在 变化 (如 说 话 速 度 \ 不 同 说 话 人 特性 等 ) 和 它们 的 相关 性 。 概 率 
语法 分 析 法 适用 于 大 旋 围 的 连续 语音 识别 , 它 可 以 利用 连续 请 首 中 的 语法 约束 知识 来 对 似 然 
图 数 进 行 估计 和 判决 。 其 中 ,语法 可 以 用 参数 形式 来 表示 ,也 可 以 用 非 参 数 形式 来 表示 。 

语音 识别 中 ,最 简单 的 是 特定 人 、 小 词汇 量 .孤立 词 的 语音 识别 ,最 复杂 最 难 解 决 的 是 非 
特定 人 ,大 词汇 量 .连续 语音 识别 。 无 论 是 哪 一 种 语音 识别 ,当今 采用 的 主流 算法 仍然 是 隐 
马尔 可 夫 模 型 方法 。 

庄 音 识别 系统 本 质 上 是 一 种 模式 识别 系统 。 它 的 基本 框图 如 图 6-1 所 示 , 与 常规 的 模 
式 识别 系统 一 样 ,包含 有 特征 提取 模式 匹配 和 参考 模式 库 等 三 个 基本 单元 。 但 是 由 于 语音 
识别 系统 所 处 理 的 信息 是 结构 非常 复杂 ,内容 极其 丰 宣 的 人 类 语言 信息 ,因此 它 的 系统 结构 
比 通常 的 模式 识别 系统 要 复杂 得 多 。 

图 6-1 中 的 后 处 理 单元 ,可 能 涉及 句法 分 析 、 请 首 理 解 . 语 意 网 络 以 及 语言 模型 等 。 它 
往往 不 是 一 个 孤立 的 单元 ,而 是 与 匹配 计算 单元 ,参考 模 式 库 融 合 在 一 起 ,构成 一 个 逻辑 关 
系 复 末 的 系统 整体 。 


语音 输入 
-一 全 | 预 处 理 与 数字 化 | ~| 特征 提取 


图 6-1 声音 识别 的 原理 框图 


6.2 基于 矢量 量化 的 识别 技术 


矢量 量化 (vector quantization) 是 20 世纪 70 年 代 末 才 发 展 起 来 的 。 它 广泛 应 用 于 声音 
编码 .语音 识别 与 合成 .图 像 压 缩 等 领域 。 在 语音 信号 处 理 中 占有 十 分 重要 的 地 位 。 

量化 可 以 分 为 两 大 类 : 一 类 是 标量 量化 , 男 一 类 是 矢量 量化 。 标 量 量化 是 将 采样 后 的 
言 号 值 和 逐个 进行 量化 ,这 时 将 一 维 的 去 到 无 穷 大 值 之 间 设 置 右 干 个 量化 阶梯 , 当 荣 个 输入 信 
号 的 幅度 值 落 在 某 相 邻 的 两 个 量化 阶梯 之 间 时 ,就 被 量化 为 与 其 最 近 的 一 个 阶梯 的 值 。 而 
和 天 量 量化 是 将 硅 干 个 米 样 信号 分 成 一 组 , 即 构 成 一 个 矢量 ,然后 对 此 矢量 一 次 进行 量化 。 化 
是 将 d 维 无 限 空间 划分 为 天 个 区 域 边界 ,每 个 区 域 称 为 一 个 包 腔 ,然后 将 输入 信号 的 矢量 
与 这 些 包 腔 的 边界 进行 比较 ,并 被 量化 为 “距离 ”最 小 的 包 腔 的 中 心 和 拓 量 值 ,如 图 6-2 所 示 。 
当然 ,矢量 量化 同时 会 融 来 信息 的 损失 。 这 里 包 腔 的 中 心 称 为 码 字 ,而 码 字 的 组 合 称 之 为 
但 书 。 


图 6-2 具有 16 个 包 腔 的 二 维 平面 的 划分 


在 天 量 量 化 中 主要 有 两 个 问题 : 山 如 何 划 分 天 个 区 域 的 边界 。 这 需要 用 大 量 的 输入 
信号 矢量 ,经 过 统计 实验 才能 确定 。 这 个 过 程 称 为 “训练 ”或 建立 码 本 ,一 般 采 用 K-means 
算法 或 者 LBG 算法 。 包 如 何 确定 两 个 天 量 在 进行 比较 时 的 测度 ,可 以 及 用 欧 氏 距离 ( 均 方 
差距 离 ) 或 Itakura-Satio 距离 ,以 及 似 然 比 失 真 等 。 输 入 天 量 被 量化 后 ,得 到 在 码 本 中 与 该 
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天 量具 有 最 小 失真 的 菏 个 人 码 字 的 角 标 作为 存储 \ 传 输 和 匹配 的 参数 。 可 以 看 出 ,量化 副本 和 号 
存在 -十 的 区 分 能 力 . 因而 可 以 用 在 语音 日 识别 中 。 


6.2.1 K-means 矢量 量化 算法 


为 了 设计 包含 K 个 码 字 的 码 书 ,可 以 将 原始 的 a 维 空间 分 成 K 个 包 腔 ,每 一 个 包 腔 用 
一 个 中 心 矢量 zx: 表示 。 设 计 的 原则 是 使 整体 的 均 方 误差 达到 最 小 ,其 目标 函数 如 下 : 


K 


D= ELd(x,z)] = Dplx € Ci)E[Ld(x,z) |x € C] 


i 一 1 
KK 
2 px < | )pl(x | x €E Ci)dx = > p (6-1) 
i 二 XE ( , 


这 里 D; 是 第 ; 个 外 腔 的 平均 误差 ， 证 为 包 腔 i 的 质心 。 其 中 zx,z) 表 示 距 离 画 数 或 者 
误差 销 数 ,其 有 多 种 表示 形式 ,如 式 (6- mnie etait 3) 中 的 马 氏 距离 。 


dO {RE} 3 Le (2 
i=1 
d(x,z) = (x—2z)'2 (x—z) (6-3) 


如 有 果 在 式 (6-1) 中 d(x,z) 用 欧式 距离 表示 , 则 z; 的 求解 问题 可 以 转化 为 求 使 每 个 包 用 的 误 
差 也; 达到 最 小 值 的 点 ,具体 如 下 。 


= 一 


LVi 1 EC 

= 2 (Ee 
LEC. 

we 各 (6-4) 

PE 
即 
3 二 Dx ey 
Nixec, 


其 中 ,Ni 为 第 i 个 包 腔 的 样本 数量 。 中 体 的 1 K-means 算法 过 程 如 下 : 

(1) 初始 化 : 选择 合适 的 方法 设置 K 个 初始 的 码 本 中 心 z ,1 三 i 三 K。 

(2) 最 近邻 分 类 : 将 训练 数据 矢量 x, 按照 最 近邻 原则 分 配 到 最 近 的 码 本 zx; 中 ,x € 
Csd lw sz) d(x si 

(3) 码 本 更 新 : 将 所 有 的 训练 数据 分 配 到 离 其 最 近 的 人 码 本 后 ,按照 式 (6-5) 生 成 新 的 包 
腔 内 对 应 的 质心 , 即 新 的 码 本 。 

(4) 重复 步骤 (2) 和 步骤 (3) ,直到 相 邻 迭代 的 误差 万 满足 式 (6-6) 的 国 什 要求。 其 中 上 
标 为 近代 次 数 。 


(7 一 1) __ Tin) 
9 DD 和 I Sm 


6.2.2 LBG 算法 


K-means 算法 是 在 码 书 大 小 已 知 的 情况 下 对 样本 聚 类 的 方法 ,但 在 很 多 应 用 中 ,事先 育 
类 中 心 的 个 数 未 知 , 即 码 书 大 小 未 知 , 这 时 可 以 采用 LBG 算法 。 这 个 算法 是 依据 Linde、 


人 
了 ™ 


口 
这 口 
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Buzo、Gray 三 个 人 来 谷 名 ,算法 的 核心 思想 是 先生 成 一 个 聚 类 中 心 的 码 本 ,然后 逐 层 分 裂 ， 
直到 聚 类 误差 达到 要 求 , 算 法 具体 如 下 。 

(1) 初始 化 : KK==1, 按 照 式 (6-5) 得 到 初始 的 码 本 中 心 z;。 

(2) 分 弄 : 将 所 有 的 样本 按照 最 近邻 原则 划分 到 天 个 包 腔 中 ,在 z; 相对 应 的 包 腔 的 样 
本 中 选择 距离 最 远 的 两 个 点 ,作为 新 的 聚 类 中 心 ,这样 将 KK 个 包 腔 分 询 成 2K 个 包 腔 。 

(3) KK-means: 按照 2K 个 包 腔 ,执行 下 -means 方法 达到 收敛 ,得 到 2K 个 聚 类 中 心 。 

(4) 结束 : 重复 步骤 (2) 和 步骤 (3) ,直到 达到 要 求 的 聚 类 中 心 个 数 , 或 者 误差 达到 要 求 。 


第 6 章 


bt 
Ok 


6.3 ”动态 时 间 归 正 的 识别 技术 


在 请 音 识 别 中 ,和 倘 单 地 将 输入 模板 与 相应 的 参考 模板 直接 做 比较 存在 很 大 的 缺 扣 。 因 
为 语音 信号 具有 相当 大 的 随机 性 ,即使 是 同一 个 人 在 不 同时 刻 妥 的 同一 个 墙 音 ,也 不 可 能 有 具 
有 完全 相同 的 时 间 长 度 , 因 此 时 间 归 正 处 理 是 必 不 可 少 的 。 动 人 态 时 间 要 折 (dynamic time 
warping， DTW) 是 把 时 间 归 正和 距离 测度 计算 结合 起 来 的 一 种 非 线 性 归 正 技术 。 它 也 是 请 
音 识 别 中 一 种 很 成 功 的 匹配 算法 。 


6.3.1 DTW 基本 原理 


动态 时 间 杰 折 是 采用 动态 规划 技术 (dynamic programming ,DP) ,将 一 个 复杂 的 全 局 最 
优化 问题 转化 为 证 多 局 部 最 优化 问题 ,一步 一 步 地 进行 决 肛 。 假 设 参考 模板 的 特征 天 量 序 
列 为 于 一 (xx ，…xXr ,输入 语音 特征 矢量 厅 列 为 Y= 二 4y1 ,ys yyJ) ,TIT 关 JJ。DTW 算法 就 
是 要 寻找 一 个 最 佳 的 时 间 归 正 困 数 ,使 待 测 诸 音 的 时 间 贡 7 非 线性 地 映射 到 参考 模板 的 时 
间 宙 上 ,使 总 的 素 计 失真 量 最 小 ,如 峡 6-3 所 示 。 


参考 模板 时 间 轴 i 


"i 5 10 15 20 
竺 测 语音 时 间 袖 ,7 


图 6-3 动态 时 间 归 正 过 程 


设 时 间 归 正 函 数 为 
Co (1) el(2) ,CON)) (6-7) 
式 中 ,N 为 路 径 长 度 c (nn) 二 (i(n),j(n)) 表 示 第 nn 个 匹配 点 对 是 由 参考 模 极 的 第 i(n) 个 特 
征 天 量 与 待 汕 模板 的 第 jz 个 特征 天 量 构 成 的 匹配 点 对 。 两 痢 之 间 的 距离 (或 失真 值 ) 
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d(xiow yyio) 称 为 局 部 匹配 跑 离 。DTW 算法 就 是 通过 局 部 优化 的 方法 实现 加 权 距 离 总 和 


最 小 , 即 


N 
> A ， ion ) 本 W, | 
Bm (6-8) 


C Siw, 
式 中 ,加 权 肾 数 W,; 的 选取 应 考虑 两 个 因 系 : 一 是 根据 第 ?对 匹配 点 前 一 步 局 部 路 径 的 走 
向 来 选取 ,惩罚 45 "方向 的 局 部 路 径 , 以 便 适 应 I 关 J 的 情况 ; 二 是 考虑 语音 各 部 分 给 予 不 同 
权 值 ,以 加 强 某 些 区 别 特 征 。 在 式 (6-8) 所 表达 的 优化 过 程 中 ,可 以 对 时 间 归 正 哺 数 C 做 某 
些 限制 ,以 保证 匹配 路 径 不 违 痛 请 首 信 号 各 部 分 特征 的 时 间 顺 友 。 一 般 要 求 归 正 函 数 满足 
如 下 约束 。 

(1) 单调 性 : i(n) 宇 i(n 一 1),j(n) 宇 j (n 一 1)。 

(2) 起 点 和 终点 约束 : 一 般 要 求 i(1)==j(1)==1; i(N)==I,j(N)==]。 

(3) 连续 性 : 一 般 规定 不 允许 跳 过 任何 一 点 , 即 ;za) 一 zz 一 1) 和 1 和 7 一 1 一 1) 委 1。 

(4) 最 大 归 正 量 不 超过 某 一 极限 ,最 简单 的 情形 为 |i(n) 一 j(n) | 二 M, 其 中 称 M 为 窗 
宽 。 通 常 还 对 归 正 函数 所 处 的 区 域 做 某 些 规定 ,例如 位 于 平行 四 边 形 内 ,为 了 实现 以 上 约束 
条 件 , 需 要 设计 局 部 路 径 的 约束 , 它 用 于 限制 当 第 nn 步 为 (i(n),j(n)) 时 ,前 几 步 存在 几 种 可 
能 的 局 部 路 径 。 

图 6-4 给 出 了 3 种 典型 的 局 部 路 径 约 束 , 图 6-4(a) ,图 6-4(b)、 图 6-4(c) 分 别 给 出 了 路 

径 受 前 面 一 步 、 二 步 和 三 步 约 束 的 情况 ，。 


/| 


(a) 受 一 步 约束 ””(b) 受 二 步 约束 (c) 受 三 步 约束 
图 6-4 3 种 典型 的 局 部 路 径 约 束 


下 面 再 定义 一 种 最 小 么 计 失 真 图 数 g(i,7), 它 表示 到 匹配 点 对 (i,7 为 止 的 前 面 有 所有 可 
能 的 路 径 中 最 佳 路 径 的 累计 匹配 距离 。g(i,j) 存 在 如 下 递 推 关 系 . 
8(i)) 一 ,min {地 ) + d(zi,y;)W,)} (6-9) 


其 中 ,(7i ,7 ) 表 示 局 部 路 径 (i , 门 一 人 ,四 的 起 点 , 权 克 ,的 取 值 是 与 局 部 路 径 有 关 的 。 
基于 上 述 的 定义 及 相应 的 约束 和 规则 ,以 图 6-4(a) 的 局 部 路 径 约 束 和 平行 四 边 形 区 域 
约束 为 例 ,DTW 算法 的 具体 步骤 如 下 : 
(1 初始 北 5 守 才 1) 二 jC 中 一 1,g01,1) 一 20d(m 下) 
:Os (i,;?) E Reg : 
g(i,j) 一 (6-10) 
huge, 当 ( 人 ijJ) & Reg 
式 中 ,约束 区 域 Reg 可 以 假定 是 这 样 一 个 平行 四 边 形 , 它 有 两 个 位 于 (1,1) 和 (1,J) 的 顶点 ， 
相 邻 两 条 边 的 斜率 分 别 为 2 和 1/2。 


(2) 递 推 求 素 计 距离 : 
g(ij) =min{g(i—1,7)) + d(xsy) * Wl); gi—1,7—1)+d(xi,y;) » W,(2); 
g(isj—1)+dlx,y;) » W,(3)) 
oo ds = ds (tf € Reg (6-11) 

对 于 图 6-4(a) 所 示 的 局 部 路 径 , 一 般 取 距离 加 权 值 为 W,(1) 二 W,(3)==1,W,(2)==2， 
归 正 函数 的 点 数 不 是 固定 不 变 的 ,而 是 随 I 和 J 的 值 而 变 ,这 可 以 用 >) W, 作为 分 母 来 补 
偿 , 如 式 (6-8) 所 示 。 

(3) 回溯 求 出 所 有 的 匹配 点 对 : 根据 每 步 的 上 一 步 最 佳 局 部 路 径 , 巾 匹配 点 对 (7 万 加 
前 回溯 一 直到 (1,1)。 这 个 回溯 过 程 对 于 求 平 均 模 板 或 聚 类 中 心 来 讲 是 必 不 可 少 的 ,但 在 识 
别 过 程 往 往 不 必 进 行 。 

6.3.2 模板 训练 算法 

前 面 介绍 的 内 容 是 关于 DTW 算法 中 的 模式 匹配 过 程 , 在 这 个 过 程 中 ,模板 建立 的 好 坏 
将 直接 影响 到 匹配 结果 。 一 般 DTW 算法 中 的 模板 训练 方法 ,有 偶然 训练 法 项 健 模板 训练 
法 以 及 通过 聚 类 得 到 相应 模板 的 方法 。 

1. 偶然 模板 训练 法 

当 待 识别 词 表 不 太 大 , 且 系 统 为 特定 人 设计 时 ,可 以 采用 一 种 简单 的 多 模板 训练 方法 。 
即将 每 个 词 的 每 一 遍 语音 形成 一 个 模板 。 在 识别 时 , 待 识别 矢量 序列 用 DTW 算法 分 别 求 
得 与 每 个 模板 的 累计 失真 后 ,判别 它 是 属于 哪 一 类 。 但 是 由 于 语音 的 偶然 性 很 大 , 且 训 练 时 
语音 可 能 存在 错误 ,比如 不 正确 的 音 联 , 故 用 这 种 方法 形成 的 模板 的 项 健 性 不 好 ,这 也 是 这 
种 方法 被 称 为 偶然 训练 方法 的 原因 。 

2. 奖 健 模板 训练 方法 

这 种 方法 将 每 个 词 重 复 说 多 遍 , 直 到 得 到 一 对 一 致 性 较 好 的 特征 矢量 序列 。 最 终 得 到 
的 模板 是 在 一 致 性 较 好 的 特征 矢量 序列 对 上 沿 DTW 的 路 径 求 平均 。 其 训练 过 程 如 下 : 

假定 只 考虑 某 个 特定 词 。 令 Xi 二 《xu,xiz，…，,xir ) 为 第 一 遍 的 特征 矢量 序列 ,XX 一 
(xz1 X22，"…* ,X27,} 为 男 一 遍 的 特征 矢量 序列 。 通 过 DTW 算法 计算 这 两 个 模板 的 失真 得 分 
d (Xi ,XX;) ,如 果 这 个 值 小 于 某 个 门限 , 则 认为 这 两 过 的 特征 矢量 序列 一 致 性 较 好 , 便 可 求 X， 
和 X。 的 时 间 罕 折 平 均 而 得 到 一 个 新 的 模板 Y 一 (7 ,ys，… ,yr,)}。 上 有 具体 的 求法 如 下 : 

令 了 ,为 DTW 算法 的 最 优 路 径 长 度 , 则 最 优 路 径 序列 为 

(COD OD GO DY ir (CT,) fi (TD 

新 的 模板 Y 可 以 通过 下 面 公式 得 到 


Ys = Ci 十 Ya 并 一 1 2 (6-12) 
这 样 得 到 的 模板 显然 比 偶然 训练 法 可 靠 , 但 如 果 每 个 词 的 模板 由 这 样 的 一 个 模板 表示 ,往往 


还 显得 不 够 充分 。 当 识别 任务 是 针对 非特 定 人 时 ,这 种 问题 更 为 突出 。 

3. 非特 定 人 识别 的 模板 训练 算法 一 聚 类 方法 

对 于 非特 定 人 请 首 识别 ,要 想 获 得 较 遍 的 识别 卒 , 束 必须 用 多 组 数据 进行 训练 ,以 获得 
可 菲 的 模板 参数 。 最 初 的 抓 立 词 识别 米 用 人 工 干 预 的 聚 类 方法 ,这 些 方 法 尽管 有 效 , 但 由 于 
人 工 干 预 的 烦琐 工作 阻碍 了 其 应 用 。 为 了 解决 这 个 问题 ,人 们 提出 了 一 系列 的 聚 类 算法 。 
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这 些 聚 类 算法 与 常规 的 模式 聚 类 方法 的 主要 不 同 点 是 : 语音 识别 模板 的 聚 类 ,针对 的 是 有 
时 序 关 系 的 谱 特 征 序列 ， spp 下 面 介 绍 其 中 的 - dl 
令 0 为 上 个 训练 序列 的 集合 ,Q2 = {下 | ,六 , ,… ,四 , } ,其 中 ,每 个 元 素 四 , 为 某 特定 语音 
-次 实现 , 即 一 次 发 音 。 oyster les : 行 匹配 计算 ,得 到 的 匹配 距离 
6(X;, 头 ;) , 则 可 构成 一 个 LXL 的 距离 矩阵 。 聚 类 的 目的 是 将 训练 集 Q 聚 成 N 个 不 同 的 类 


(wr3 i 一 1,2,…,N) ,使 D= wi 在 同一 类 中 的 语音 模式 比较 相近 。 类 的 总 数 N 可 以 事先 
确定 ,也 可 以 在 聚 类 时 根据 某 种 准则 自动 确定 一 类 可 以 用 一 个 典型 的 语音 序列 来 代表 ， 
也 可 以 不 是 w 的 一 个 元 订 。 

用 wi,; 表 示 j 个 类 别 中 的 第 i 类 ,i 一 1,2,… ,7; 其 达 代 次 数 为 ,二 1 ,2,*…,Rax ， 尺 max 为 
允许 的 最 大 迭代 次 数 。 用 >y(o) 代 表 新 的 中 心 ,y(o) 可 以 是 形 心 ,也 可 以 是 w 的 -个 代表 性 
的 值 。 该 算法 依次 递增 地 发 现 j 个 类 , 即 7 从 1 了 逐渐 增加 到 js ,jw 为 预先 设 定 的 最 大 类 
数 。 聚 类 算法 步 又 如 下 : 

(1) 计算 每 两 个 发 音 特 征 天 量 厅 列 的 距离 ,获得 距离 矩阵 。 同 时 记录 各 发 音 回 的 匹配 

(2) 令 j7= 二 1,k 二 1,1 二 1,win 二 人 ,计算 整个 训练 集 2 的 聚 类 中 心 。 

(3) 最 小 距离 分 类 : 对 每 个 训练 模式 ,1 一 1,2,…,L, 根 据 最 小 距离 准则 为 其 标 上 索 
引 i, 使 是 ,Ew ,;, 当 有 是 仅 当 

OKXi,y (wi,i)) 一 Dind (X, »y (wi,n)) (6-13) 
计算 每 一 类 ow; 的 类 内 距离 和 , 即 
= D6(X, ys)) (6-14) 

(4) 调整 聚 类 及 聚 类 中 心 ; 根据 上 一 步 对 各 个 XX, 的 索引 标志 得 出 新 的 分 类 wt?! 及 
oj 的 聚 类 中 心 , 式 中 i=1,2,…，,j 
验 : 满足 下 面 3 个 条 件 之 一 , 则 执行 步骤 (6) ,否则 转 癌 步骤 (3),3 个 条 


中 对 所 有 i 二 1,2,…,j, 有 
i (6-15) 


ns 
@ 总 的 类 内 距离 变化 小 于 一 个 预 设 的 门限 值 As , 即 [Da — DA | 辣 辣 cn 


(6) 记录 j 个 聚 类 结果 : 如 果 收 敛 , 则 得 到 7 类 wi?' 及 其 聚 类 中 心 y(owy,:) 。 

(7) 类 分 裂 : 将 具有 最 大 类 内 距离 的 类 分 成 两 类 。 最 大 类 内 距离 可 有 两 种 选择 : 总 的 
类 内 距离 和 平均 类 内 距离 。 分 裂 方 法 为 找到 类 内 的 两 个 元 素 六 ,和 六,s ,使 得 

OKn ,Kn ) > HK , Kn) 

式 中 ,六 和 XX 是 类 内 任意 两 元 素 。 这 样 , 和 X 关 ;作为 两 个 新 的 聚 类 中 心 取代 原 聚 类 中 心 。 
ij 变 为 1 十 1, 重 新 设 &= 王 1, 重 复 步 又 (3) 一 步 又 (6) 。 

(8) 当 满 足 所 需 的 类 别 数 后 ,在 每 个 类 内 用 X, 作为 一 个 典型 模式 Y, 用 DTW 算法 将 类 
内 其 他 各 模式 映射 到 该 模式 上 , 均 得 到 一 个 最 优 路 径 。 


(9) 对 凡是 最 优 路 径 中 弯 折 到 Y 中 的 第 n 帧 的 元 率 y, 的 所 有 帆 求 形 心 ,作为 了 肾 类 中 心 
第 nn 帧 的 中 心 。 

(10) 对 2=1 到 Tyr( 总 帆 数 ) 做 一 遇 上 述 过 程 , 即 可 得 到 一 个 平均 的 聚 类 中 心 。 对 所 有 
类 别 都 重复 这 样 的 步骤 ,就 可 获得 各 个 类 别 的 代表 模式 。 

DTW 算法 作为 一 种 有 效 的 时 间 归 正和 语音 测度 计算 方法 ,广泛 应 用 在 孤立 词 识 别 中 。 
尽管 如 此 , 它 也 存在 着 下 列 问 题 ; 首先 ,由 于 要 找到 最 佳 匹配 点 ,因此 要 考虑 多 种 可 能 的 情 
况 ,运算 量 相 对 大 些 ; 其 次 , 语 首 识 别 性 能 过 分 依赖 于 端点 检测 ,端点 检测 的 精度 随 者 不 同 
的 语 首 而 有 所 不 同 , 有 些 语 首 的 端点 检测 精度 较 低 , 由 此 影 啊 识 别 率 的 提高 。 最 后 ,这 种 算 
法 没有 充分 利用 语音 信和 号 的 时 序 动态 信息 。 


6.4 ” 隐 马 尔 可 夫 模型 技术 


隐 马 尔 可 夫 模 型 (hidden markov models, HMM) 作 为 语 首 信号 的 一 种 统计 模型 ,在 语 
音 处 理 各 个 领域 中 获得 了 广泛 的 应 用 。 它 的 理论 基础 是 在 1970 年 前 后 由 Baum 等 人 建立 
起 来 的 ,随后 由 CMU 的 Baker 和 IBM 的 Jelinek 等 人 将 其 应 用 到 语音 识别 之 中 。 由 于 Bell 
实验 室 Rabiner 等 人 在 20 世纪 80 年 代 中 期 对 HMM 的 深入 浅 出 的 介绍 , 才 逐 渐 使 HMM 
为 世界 各 国 从 事 语 音 处 理 的 研究 人 员 所 了 解 和 熟悉 ,进而 成 为 公认 的 有 效 的 语音 识别 方法 。 

丁 介绍 HMM 的 基本 理论 和 基本 思想 ,将 从 介绍 马尔 可 夫 链 的 基本 概念 人 手 , 通 过 
分 析 典 型 的 HMM 实例 ,从 而 引出 HMM 的 定义 ,并 介绍 HMM 的 参数 ; 然后 介绍 将 
HMM 应 用 到 语音 处 理 中 经 常会 面临 的 3 大 基本 问题 的 解决 方案 , 即 给 出 3 个 基本 算法 ， 
前 加 -后 回 算 法、Viterbi 算法 和 Baum-Welch 算法 。 此 外 ,还 将 介绍 实现 这 些 算法 应 注意 的 
问题 ,例如 ,初始 模型 的 选取 ,用 多 个 观察 值 序列 训练 模型 参数 的 问题 ,为 解决 计算 中 的 下 洲 
问题 而 对 算法 加 入 比例 因子 的 处 理 过 程 , 以 及 马尔 可 夫 链 的 形状 选取 问题 。 最 后 ,还 将 介绍 
当 训练 数据 不 充分 时 的 应 对 措施 ,以 及 如 何 克 服 说 话 人 的 影响 和 对 经 典 训练 算法 加 以 改进 
的 方法 。 


6.4.1 HMM 基本 思想 


1. 马尔 可 夫 链 
马尔 可 夫 链 是 马尔 可 夫 随 机 过 程 的 特殊 情况 , 它 是 状态 和 时 间 参 数 部 离 获 的 马尔 可 夫 
过 程 ,从 数学 上 可 以 给 出 如 下 定义 。 
随机 序列 X, ,在 任 一 时 刻 t, 它 可 以 处 在 状态 ,…,0n, 且 它 在 1 十 kk 时刻 所 处 的 状态 为 
qi+# 的 概率 ,只 与 它 在 t 时刻 的 状态 gq, 有 关 , 而 与 t+ 时 刻 以 前 它 所 处 的 状态 无 关 , 即 有 
| 
式 中 


U1 res sm ?Omtk CC (0 ,0, ee 0) (6-17) 
则 称 已, 为 马尔 可 夫 链 ,并 且 称 P; 为 k 步 转移 概率 ,表示 如 下 : 
Poteét Ry = Pp = | 和 = (6 18) 


式 中 ,i 和 j 是 介 于 1 和 N 之 间 的 正 整数 ,t 是 正 整数 。 当 Ps (1,t 十 ) 与 ! 无关 时 , 称 这 个 马 
尔 可 夫 链 为 齐 次 马尔 可 夫 链 ,此 时 
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Pi; (t,t k) = P; (k) 6-19) 
以 后 车 无 特别 声明 ,马尔 可 夫 链 就 是 指 齐 次 马尔 可 夫 链 。 当 ==1 时 ,Py (1) 称 为 一 步 转移 
概率 ,和 何 称 为 苇 移 概率 , 记 为 a; ,所 有 转移 概率 a; ,1 压 i,j 夺 NN, 可 以 构成 一 个 转移 概 广 滤 


阵 , 即 
| 11 UIN 
种 一 : : 《0-20) 
| UN] ”UNN 
日 有 
0 zs < (6-21) 
N 
证 (6-22) 
j=1 


由 于 衣 步 转移 概率 Pj (k) 可 由 转移 概率 aj 得 到 ,因此 描述 马尔 可 夫 链 的 最 重要 的 参数 就 是 
苇 移 概率 矩阵 4。 但 4 和 矩阵 还 决定 不 了 初始 分 布 , 即 由 人 4 求 不 出 qi 三 4 的 概率 ,这 梓 ,完全 


显然 有 
me (6-25) 


实际 中 ,马尔 可 夫 链 的 每 一 状态 可 以 对 应 于 一 个 可 观测 到 的 物理 事件 。 比 如 天 气 预测 中 的 
雨 、. 晴 、 雪 等 ,这 时 可 称 之 为 天 气 预 报 的 马尔 可 夫 链 模型 。 根 据 这 个 模型 ,可 以 计算 出 各 种 天 
气 ( 状 态 ) 在 某 一 时 刻 出 现 的 概率 。 

2. HMM 的 基本 思想 

HMM 是 在 马尔 可 夫 链 的 基础 之 上 发 展 起 来 的 。 由 于 实际 问题 比 马 尔 可 夫 链 模型 所 摘 
述 的 更 为 复杂 ,观察 到 的 事件 并 不 是 与 状态 一 一 对 应 ,而 是 通过 一 组 概率 分 布 相 联系 ,这 样 
的 模型 就 称 为 HMM。 它 是 一 个 双重 随机 过 程 ,其 中 之 一 就 是 马尔 可 夫 链 ,这 是 基本 随机 过 
程 , 它 描述 状态 的 转移 。 另 一 个 随机 过 程 描 述 状态 和 观察 值 之 间 的 统计 对 应 关系 。 这 样 站 
在 观察 者 的 角度 ,只 能 看 到 观察 值 ,不 像 马尔 可 夫 链 模型 中 的 观察 值 和 状态 一 一 对 应 ,因此 ， 
不 能 直接 看 到 状态 ,而 是 通过 一 个 随机 过 程 去 感知 状态 的 存在 及 其 特性 。 因 而 称 之 为 “ 隐 ” 
马尔 可 夫 模 型 。 现 在 来 看 一 个 著名 的 说 明 HMM 概念 的 球 和 和 所 (ball and urn) 实 验 , 如 图 6-5 
所 示 。 


全] 全 2 FLN 


P(EL)P1(1) P(EL) bal) PEL)=bM1) 
P( 绿 )=b1(2) 妨 绿 )D2(2) P( 绿 )=bn(2) 
P( 监 =b1G3) P(E)=b2(3) P( 莫 )=pN3) 


图 6-5 说明 HMM 概念 的 球 和 和 饶 的 例子 


设 有 N 个 拭 , 每 个 饶 中 装 有 很 多 彩色 的 球 , 球 的 颜色 由 一 组 概率 分 布 描 述 。 实 验 是 这 
样 进 行 的 ,根据 某 个 初始 概率 分 布 ,随机 地 选择 N 个 和 中 的 一 个 ,例如 第 i 个 和 拭 ,随机 地 选 
择 一 个 球 , 记 下 球 的 颜色 , 记 为 ol ,再 把 球 放 回 垂 中 ,又 根据 撒 述 年 之 间 的 转移 概率 分 布 , 随 
机 选择 下 一 个 年 ,例如 第 j 个 币 ,再 从 人 垂 中 随机 选 一 个 球 , 记 下 球 的 颜色 , 记 为 0; ,一 直 进 行 
下 去 。 可 以 得 到 一 个 描述 球 的 颜色 的 序列 ol ,os ,… ,由 于 这 是 观察 到 的 事件 ,因而 称 之 为 观 
察 值 序列 。 但 生 之 间 的 转移 及 每 次 所 选取 的 和 氏 被 隐藏 起 来 ,并 不 能 直接 观察 到 。 而 且 从 每 
个 和 伺 中 选取 球 的 颜色 并 不 是 与 币 一 一 对 应 ,而 是 由 该 仙 中 彩 球 颜色 概率 分 布 随 机 决定 的 。 
此 外 ,每 次 选取 哪个 生 则 由 一 组 转移 概率 决定 。 

这 样 ,每 次 会 观测 到 什么 样 的 观测 值 ,不 仅仅 由 每 个 和 拭 中 彩色 球 的 颜色 分 布 决定 ,还 与 
决定 每 次 选择 哪 一 个 饶 的 转移 概率 和 矩阵 有 关 。 而 每 次 选择 的 是 哪 一 个 和 ,观测 者 并 不 能 事 
先知 道 ,这 样 就 存在 着 年 的 一 个 隐 含 序列 和 彩色 球 的 一 个 显 性 的 观测 序列 。 

3. HMM 定义 

有 了 前 面 讨论 的 蕊 尔 可 夫 链 以 及 对 HMM 思想 的 理解 ,现在 可 以 给 出 HMM 的 定义 。 
-个 HMM 可 以 由 下 列 参 数 描述 : 

(1) N: 模型 中 马 Ce 记 NN 个 状态 为 01 ,…,0n, 记 + 时刻 马 尔 可 夫 链 所 
处 状态 为 g, ,显然 ,gq, EE (0 ,…,0n)。 在 球 与 钙 实验 中 的 氏 就 相当 于 状态 。 

(2) M: 每 个 状态 对 应 的 可 能 的 观 多 me 记 M 个 观察 值 为 VV ,…,Vw, 记 上 时 刻 观 


察 到 的 观察 值 为 o,, 其 中 ,o,€ (Vi,*…， 。 在 球 与 氏 实 验 中 所 选择 彩 球 的 颜色 ,就 是 观 
察 值 。 
(3) NTs: 初始 状态 概率 ,r 一 (ri ,Ti ; 式 中 
2 (6-26) 


在 球 与 拭 实验 中 指 开始 时 选取 某 个 和 饶 的 概率 ，。 
(4) A: 状态 转移 概率 和 矩阵, (a; )wxw, 其 中 
S| Ln (6-27) 
在 球 与 年 实验 中 ,描述 前 和 的 条 件 下 选取 下 个 征 的 概率 。 
(5) B; 观察 值 概率 和 矩阵 , (5; )nwxn ,其 中 


ba 一 Po =Vi|g=0), 1<ij<N,1<ESCM (6-28) 
在 球 与 秘 的 实验 中 ,bi 就 是 第 /个 生 中 球 的 颜色 k 出 现 的 概率 。 这 样 就 可 以 记 一 个 HMM 为 
人 一 (NM.r',A4, 有 ) (2 

或 简写 为 
A= (x,A,B) (6=30) 


ni HMM 可 分 为 两 部 分 ,一 个 是 马尔 可 夫 链 ,由 x、A 描述 ,产生 的 输出 为 状 
态 序 列 , 男 一 个 是 一 个 随机 过 程 , 由 B 描述 ,产生 的 输出 为 观察 值 序列 。 如 图 6-6 所 示 , 其 


he 
随机 过 程 
(B) 


图 6-6 HMM 组 成 示意 图 


|; Doss UT 


观察 值 序列 
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6.4.2 ”HMM 基本 算法 

1 前 向 -| 后 回 算法 

这 个 算法 用 来 计算 给 定 一 个 观察 值 序列 O=o ,0s,… ,or 以 及 一 个 模型 A4== (x,A,B) 
时 ,由 模型 4 产生 出 O 的 概率 P(O1X)。 

根据 图 6-6 所 示 HMM 的 组 成 ,P(O|) 最 直接 的 求 取 方法 如 下 : 对 一 个 固定 的 状态 序 
列 Q—=qi,g ,… 0T， 有 


P(O | Q,1) = TT Pee, 0) = Bb C01 706 (on) Bb,, (07) (6-31) 
= 1ST (6-32) 
而 对 给 定 4, 产 生 Q 的 概率 为 
Be (6-33) 
因此 ,所 求 概率 为 
P(O|1))= >,P(OQ:DPCQ IN) 
所 有 QQ 
一 (6-34) 
1 "2 7 


显而易见 ,上 式 的 计算 量 是 十 分 尺 人 的 ,大 约 为 2TN7 数量 级 , 当 N 二 5,T 二 100 时 ,计算 量 
达 10”, 这 是 完全 不 能 接受 的 。 在 此 情况 下 ,要 想 求 出 P(O1X) ,就 必须 寻求 更 为 有 效 的 算 
法 ,前 问 - 后 癌 算 法 是 解决 这 一 问题 的 一 种 有 效 算法 。 

在 后 面 的 算法 中 为 方便 表示 ,对 状态 0; 的 形式 简 记 为 i。 

1) 前 回 算法 


定义 前 加 变量 为 
ofz) = POO 0 O03g9, 一 二 | 1) (6-35) 
那么 ,有 
(1) 初始 化 : 对 1 三 三 N ,有 
a (1) = xb.,(0) (6-36) 
(2) 弟 推 ; 对 1 二 1 二 TT 一 1,1<7 夺 NN, 有 
N 
Qt1 (7) 3 ee co (6-37) 
Et 一] 
(3) 终止 : 
~N 
P(O|NW) = >art) (6-38) 
zi 一] 
式 (6-37) 中 
站 (OA+1) 一 一 Di 村 一 下 (6-39) 


这 种 算法 计算 量 大 为 减少 ,只 需要 六 :下 次 运算 。 i Pm a 时 ,只 需 大 约 3000 次 乘 
法 计算 。 它 是 一 种 典型 的 格 形 结 构 , 图 6-7 给 出 前 癌 算法 示意 图 。 


AN 状态 


(b) 计算 前 项 变量 w( 放 的 递 推 过 程 
图 6-7 HMM 前 向 算法 示意 图 


与 前 回 算 法 类 似 , 定 义 后 癌变 量 为 


BA Po, O22""*" OT | 好 fi 一 Lo) 
类 似 前 问 算 法 ,有 
(1) 初始 化 : 对 1 硅 i 三 N ,有 


(2) 弟 推 ; 对 iT 一 1,T 一 2 1 委 i 委 N, 有 


BC) 一 >,aypi(o)8 (7 


P(O | 1)) = xb;(01)B (i) 


《60-40) 


(6-41) 


(6-42) 


(606-43) 


后 癌 算 法 的 计算 量 大 约 也 在 六 工 数量 级 , 它 也 是 一 种 格 形 结 构 ,后 癌变 量 的 递 推 过 程 


如 图 6-8 所 示 。 


HMM 后 向 算法 中 计算 后 项 变量 8.(i) 的 弟 推 过 程 
2，Viterbi 算法 


这 个 算法 解决 对 给 定 一 个 观察 但 厅 列 O=ol os …or 和 


-个 模型 A 二 (x,A,B) , 如何 确 


-个 最 佳 状态 序列 Q* = 二 gqgY ,gz ，… 


“最 佳 ” 的 意义 有 很 多 种 ,由 不 同 的 定义 可 得 到 不 同 的 结论 。 这 里 讨论 的 最 佳 意 义 上 的 
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状态 序列 Q 是 指使 P(Q,O1) 最 大 时 确定 的 状态 序列 Q”。 这 可 用 Viterbi 算法 来 实现 ,其 

描述 如 下 : 
定义 8 (GD 为 时 刻 上 时 沿 一 条 路 径 oo ,…,g,, 且 gq, 二 =i, 产生 出 o, 0,…o, 的 最 大 概率 , 即 有 
6.(i) = max 了 (qigz…g;ygq; 一 1 010… 0 | 1) (6-44) 


31 "2 和 生硬 本 "人 一] 


那么 , 求 取 最 佳 状态 序列 Q” 的 过 程 为 
(1) 初始 化 : 对 1 志 i 夺 NN, 有 


人 (6-45) 
pi(i) 一 0 (6-46) 
(2) 如 推 : 对 2 硅 t 压 T,1 志 7 三 和 NN, 有 
.0(7) = max[d, (Das 6; (0,) (6-47) 
1 过后 
Pet7) 一 argrmaxL9-(z)az | (0-48) 
C3) 上 终止， 
P” = max|dd) | (6-49) 
| 
0T = argmax| rz) | (6-50) 
| 
(4) 路 径 回 亢 ,确定 最 佳 状态 序列 : 
ge Pit1 (Get1) st 了 一 1 ,了 一 2 (6-51) 


对 语音 处 理应 用 而 言 ,P(Q,O14) 动 态 范 围 很 大 ,或 者 说 不 同 的 Q@ 使 P(Q,O014) 的 值 差 
别 很 大 ,而 maxP(Q,O|) 事 实 上 是 2P(Q,O| 4) 中 誉 是 轻重 的 唯一 成 分 ,因此 第 第 等 价 地 


使 用 maxP(Q,O1) 近 斤 似 SP(Q,0 4) ,那么 ,Viterbi 算法 也 就 能 用 来 计算 P(O1X4)。 


此 外 ,上 述 的 Viterbi 算法 也 是 - -种 格 型 绪 构 ,而且 类 似 于 前 回 算 法 。 同 样 , 由 后 回 算 法 
的 思想 出 发 , 亦 可 推导 出 Viterbi 算法 的 另 一 种 实现 方式 。 
3. Baum-Welch 算法 
这 个 算法 用 于 解决 HMM 训练 问题 , 即 HMM 参数 估计 问题 。 可 描述 为 : 给 定 一 个 观 
察 值 序列 0 二 01 ,0;，… ,or ;确定 一 个 4 二 (x,A4,B) ,使 P(O|) 最 大 。 
显然 ,由 式 (6-35) 和 式 (6-40) 定 义 的 前 向 和 后 向 变量 ,有 
P| DP GO， | (6-52) 


i 一 1 j 二 


求 取 4 使 P(O|) 最 大 是 - .个 泛 丽 极 值 问题 ， 但 由 于 给 定 的 训练 序列 有 限 ,因而 不 存在 一 个 
估计 4 的 最 佳 方法 。 在 这 种 情况 下 ,Baum-Welch 算法 利用 递归 的 思想 ,使 P(O|) 局 部 极 
大 ,最 后 得 到 模型 参数 4 二 (x,A,B)。 此 外 ,用 梯度 方法 也 可 以 达到 类 似 的 目的 。 
定义 (i, 站 为 给 定 训 练 序列 O 和 模型 时 ,HMM 模型 在 1 时 刻 处 于 i 状态 ,t 十 1 时 刻 
处 于 j 状态 的 概率 , 即 
= Pu = | (6-53) 
可 以 推导 出 
S27) = Latasb; Co DDB) /PO | NN) (6-54) 
那么 ,HMM 模型 在 时 刻 z 处 于 i 状态 的 概率 为 


N 
yi) = Plg,=i|O0,W) = >.8(0,)) = a()BC)/P(O|N) (6-55) 


因此 ，》,y,(i) 表示 从 i 状态 转移 出 去 次 数 的 期 望 值 ,而 >,&(i,j) 表示 从 i 状态 转移 到 状 


态 7 次 数 的 期 望 伍 。 由 此 ,导出 了 Baum-Welch 算法 中 着 名 的 重 佑 (re-estimation) 公 式 , 即 
i (6-56) 


I—1 1—1 
ay = D807 >) (06-57) 
t=1 :== 
下 I 
Be = 去 AGIDHAG (6-58) 
t 一 ] ft 一] 


那么 ,HMM 参数 A 二 (x,A4,B) 的 求 取 过 程 为 ,根据 观察 值 序 列 O 和 选取 的 初始 模型 4 = 
(x,A,B) ,由 重 估 式 (6-56)、 式 (6-57) 和 式 (6-58) 求 得 一 组 新 参数 元 ,ai ,bx , 亦 即 得 到 了 一 
个 新 的 模型 = (元 ,4,B)。 由 下 面 的 证 明 可 以 看 出 ,P(OIAM) 二 PCGOI)) , 即 由 重 估 公式 得 到 
的 A 比 和 在 表示 观察 值 序列 O 方面 要 好 ,那么 重复 这 个 过 程 ,逐步 改进 模型 参数 ,直到 
P(O1) 收 敛 , 即 不 再 明显 增 大 ,此 时 的 4 即 为 所 求 的 模型 。 

应 当 指 出 ,HMM 训练 ,或 称 参 数 估 计 问 题 , 是 HMM 在 语音 处 理 中 应 用 的 关键 问题 ， 
与 前 面 讨论 的 两 个 问题 相 比 ,这 也 是 最 困难 的 问题 。Baum-Welch 算法 只 是 得 到 广泛 应 用 
的 解决 这 一 问题 的 经 典 方法 ,但 并 不 是 唯一 的 ,也 远 不 是 最 完善 的 方法 。 

4. 重 估 算法 证 阴 

Baum-Welch 算法 一 般 的 证 明 方 式 是 构造 Q 函数 作为 辅助 函数 ,这 和 EM 算法 中 的 QQ 
图 数 构造 是 一 样 的 。 这 里 简要 介绍 EM 算法 ,这 样 在 介绍 Q 函数 构造 原则 的 同时 ,也 将 证 
明 Baum-Welch 算法 的 有 效 性 。 

EM 算法 是 一 种 从 “不 完全 数据 ”中 求解 模型 分 布 参 数 的 最 大 似 然 估 计 方 法 。 所 谓 “ 不 
完全 数据 ”一 般 指 两 种 情况 ; 一 种 情况 是 由 于 观测 过 程 本 身 的 限制 或 者 错误 造成 观测 数据 
成 为 有 错漏 的 “不 完全 ”数据 ; 男 一 种 情况 是 对 参数 的 似 然 函 数 直 接 优化 十 分 困难 ,而 引入 
额外 的 参数 ( 隐 含 的 或 丢失 的 ) 后 优化 就 比较 容易 。 于 是 定义 原始 观测 数据 加 上 和 额外 参数 组 
成 “完全 数据 ”, 原 始 观 测 数据 自然 就 成 为 “不 完全 数据 ”。 在 模式 识别 及 相关 领域 ,后 一 种 情 
况 更 常见 。 由 于 所 要 优化 的 似 然 函 数 是 一 个 随机 变量 ,直接 对 其 求 最 大 化 不 好 计算 ,但 它 的 
期 望 却 是 一 个 确定 性 的 函数 ,优化 起 来 相对 容易 。 这 就 是 EM 算法 的 基本 思路 。 该 算法 中 
包含 两 个 主要 方面 : 一 是 求 期 望 (expectation) ,用 玉 来 表示 ,一 是 最 大 化 (maximization) , 用 
M 来 表示 ; 这 也 是 这 种 方法 名 字 的 由 来 。EM 算法 在 矢量 量化 和 HMM 模型 的 参数 估计 中 
有 着 很 重要 的 作用 。 下 面 以 HMM 模型 训练 为 例 介 绍 EM 算法 。 

在 HMM 模型 中 ,数据 是 由 两 部 分 组 成 ,一 部 分 是 可 以 观测 到 的 数据 ,如 观测 特征 序列 
0O, 称 为 可 观测 数据 ; 男 一 部 分 数据 无 法 观测 到 ,如 状态 序列 Q, 称 为 隐 含 序列 。 巾 这 两 部 分 
数据 可 以 共同 构成 一 个 完全 数据 集 (0,Q) 。EM 算法 的 目的 是 通过 迭代 地 将 完全 数据 集 的 
对 数 似 然 度 期 望 最 大 化 ,来 实现 对 可 观测 数据 的 对 数 似 然 度 的 最 大 化 。 

根据 Bayes 公式 ,完全 数据 集 的 似 然 度 和 可 观测 数据 集 的 似 然 度 之 间 存 在 以 下 关系 : 

PtO,Q | ND = PCQ| OVPOO | (6-59) 
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那么 ,观测 数据 的 对 数 似 然 度 可 以 表示 为 
logP(O | 4) = logP(O,Q | 2) — logP(Q | O0.,1) (6-60) 
对 于 两 个 参数 集 和 #4, 在 已 知 O 和】 的 情况 下 ,对 公式 (6-60) 在 完全 数据 集 上 求 期 
望 , 则 
ELlogP(O | AM) |0O0,1]= ELlogP(O0,Q 123) |0,4— EllogP(Q|O,X) | 0,4] (6-61) 
其 中 式 (6-61) 的 左 半 部 分 为 


ELlogP(O | 1) 10,)]==- |logP(O | PCQ | 0,AW)dQ 


= logP(O | 1) 
一 (6-62) 
QM,X) = ELlogP(O,Q | 12) | 0,4] = llogP(0,Q | PCQ| OVdQ (6-63) 
而 
Hoa =ELloerP | | WA | lIogP(Q OA)PCQ | OA)dQ 
则 式 (6-62) 变 为 


FLOAD) = QM — HAA) (6-64) 
由 Jensen 不 等 式 可 以 知道 ,HQ,4) 三 HM,X2)。EM 算法 的 基本 原理 在 于 ,如 果 可 以 保 
证 QQ,4) 宇 Q(,) 不 等 式 成 立 , 那 么 不 等 式 L(O0,4) 宇 L(O0,) 一 定 成 立 。 从 上 面 分 析 可 以 
看 出 ,QO 图 数 实质 上 就 是 完全 数据 的 对 数 似 然 度 的 期 望 ,这 样 ,通过 将 Q() 国 数 最 大 化 就 
可 以 实现 观测 数据 的 对 数 似 然 度 的 最 大 化 。 
当 隐 藏 数据 为 离散 时 ,QCO) 图 数 一 般 表示 为 


yy SPIO'Q1A) ,pn ee 
ey 2 Ba logP(O,Q | 2) [6-65) 
EM 算法 一 般 描述 一 一 给 定 一 个 当前 的 参数 集 4, 可 以 通过 如 下 方式 获得 新 的 参数 


集 】: 
(1) 选择 初始 参数 4; 
(2) 求 期 望 , 即 在 给 定 的 参数 集 和 上 求 QO 〇 函数 ; 
(3) 最 大 化 ,选择 1 一 argmaxQ(CA,A) 。 
A 


6.4.3 HMM 算法 实现 中 的 问题 


1. 初始 模型 选取 

根据 Baum-Welch 算法 由 训练 数据 得 到 HMM 参数 时 ,一 个 重要 问题 就 是 初始 模型 的 
选取 。 不 同 的 初始 模型 将 产生 不 同 的 训练 结果 。 因 为 算法 是 使 P(O1) 局 部 极 大 时 得 到 的 
模型 参数 ,因此 ,选取 好 的 初始 模型 ,使 最 后 求 出 的 局 部 极 大 与 全 局 最 大 接近 是 非常 重要 的 。 

但 是 ,至今 这 个 问题 仍 没 有 完美 的 答案 。 实 际 处 理 时 都 是 采用 一 些 经 验方 法 。 一 般 认 
为 ,x 和 A 参数 初 值 选取 对 结果 影响 不 大 ,可 以 随机 选取 或 均匀 取 值 ,只 要 满足 式 (6-21)、 
式 (6-22) 式 (6-24) 和 式 (6-25) 要 求 的 约束 条 件 即 可 。 但 B 的 初 值 对 训练 出 的 HMM 影响 


较 大 ,一般 倾 问 采取 较为 复杂 的 初 值 选取 方法 。 基 于 这 种 考虑 ,典型 的 HMM 参数 估计 过 
程 如 图 6-9 所 示 。 这 里 ,初始 模型 4 可 以 任意 选取 。 但 因为 有 P(OlM) 二 P(OIA) ,所 以 是 
4 改进 后 的 模型 。 再 将 4 作为 初 值 用 重 估 公式 得 到 1, 这 样 就 避免 了 初 值 的 选择 不 当 。 将 经 
典 的 ~》 变 为 一) 一。 当然 , 沿 图 中 虚线 不 用 重 估 公式 ,4 也 可 近似 作为 模型 参数 。 
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用 Viterbi 算 法 
求 状态 序列 


训练 


me pr 
Aas 


2 
模型 参数 


晶 信 公式 = 
1 


图 6-9 一 种 HMM 参数 估计 方法 流程 图 


从 以 后 的 讨论 中 会 看 到 , HMM 有 很 多 种 类 型 。 因 此 ,针对 不 同形 式 的 HMM, 也 可 采 
取 不 同 的 初 值 选取 方法 。 

2. 多 个 观察 值 序列 训练 

实际 使 用 中 ,训练 一 个 HMM 经 常 是 用 到 不 止 一 个 观察 序列 ,那么 ,用 工 个 观察 序列 训 
练 HMM 时 ,要 对 Baum-Welch 算法 的 重 估 公式 加 以 修正 。 设 工 个 观察 序列 为 DO”,/! 王 
1,… 江 ,其 中 0 二 02”,02”,… ,0% ,假定 各 个 观察 序列 独立 ,此 时 有 


下 
PGND = || Pow | (6-66) 
t 一 1 
由 于 重 估 公 式 是 以 不 同事 件 的 出 现 频率 为 基础 的 ,因此 ,对 工 个 训练 序列 , 重 估 公式 修正 为 
L 
Ni; 一 Sa Ca (1)/ PO | A) 和 | 2 1 < N (6-67) 
R=] 


EE lt 
Ya (Dayb; (oR BD GI/PCO® | A) 
一 一 


A 1 (6-68) 
DD ad OPOR |D 


i=1 =] 


HH 


> Saad BO /POOP | XN) 
bx = 一 一 一 一 一 一 一 一 一 一 一 1seee Ni 
>) Ya CR OY)/PCO®N | 7) 
{=1 一 
3. 数据 下 滋 问 是 
在 前 问 一 后 回 算法 和 Baum-Welch 算法 中 ,都 有 w(GD) 和 有 CD) 的 递 推 计算 ,由 于 所 有 量 
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都 小 于 1, 因此, 随 着 1 的 增加 ,a,(i) 将 迅速 趋向 于 零 ,8,(i) 将 随 着 1 的 减少 也 将 趋向 于 零 。 
为 了 解决 这 种 数据 下 洲 问 题 , 通 第 可 以 来 取 增 加 比例 因子 (scaling) 的 方法 ,对 有 关 算 法 加 以 


修正 ,处 理 过 程 如 下 。 
1) 对 a, 《让 的 处 理 
ai (i) 本 Ab;(01), ] TN (6-70) 
凡人 个 一 -es 一 “站 | (6-71) 
上 而 (7) 
i=1] 
NN 
QO 141 (7) | > (7) as er ) ， ] = 人 Ni = 下 (6-72) 
t=1] 


MN 
0 -+1 (7 ) 一 Ci 人 (7 ) Pe Qs C7) /Dn 有 和 Nst — 1 一 


一] 
(6-73) 
NN 
其 中 ,+ 一 >» 
j=】 
2) 对 B.(2) 的 处 理 
Bs (6-74) 
br (1) la 1 二 .二 过 也 (0-75) 
N 
一 (6-76) 
= 
a es BA Le tN Ted (6-77) 


在 对 BO 进行 调整 的 时 候 , 所 用 的 比例 因子 与 对 a (2) 进 行 调整 时 相同 。 主 要 考虑 的 是 ， 
BO) 和 a,(7i) 取 值 范 围 是 可 比 的 ,可 以 通过 相同 的 比例 因子 将 B07 让 的 值 调整 到 合适 的 范围 。 

3) 篆 用 计算 公式 的 处 理 

对 a,(i) 和 B.C) 做 上 述 处 理 之 后 ,为 保持 原 有 公式 计算 结果 不 变 , 必 须 在 第 用 计算 公式 
中 做 相应 处 理 , 以 消去 比例 因子 的 影 啊 。 

(1) 概率 P(O1X) 的 计算 公式 。 

由 a 的 处 理 过 程 匈 推出 


a (1) = a,(2) /BD,…D, (6-78) 
和 而 
~N NN 
9D, = pe 一 > Dar co 
j=1 j=11| i=1 
N 
> va (1 门 71GG (Ob-79) 
j=1 
因此 
N 
Ya) = B18, (6-80) 
j=] 
即 
NN 
P(O|N)= yard) = BB, Dr :i 


7 一 1 


或 
于 
logP(O | A) = > ,log@ (6-82) 
t=] 
(2) 重信 会 式 。 
由 8 的 处 理 易 知 
pe B21) , , 
RY (6-83) 
P 中 1 中 中 
因此 , 重 佑 公式 (多 个 训练 序列 ) 变 为 
£ 
二 Ds liEN (6-84) 
i=] 
EE 
六 
i (6-85) 
YY Ya DBD) 
| 
L 了 
加 这 dy 
{=]1 t=1 有 8 
0 = _ z 
bx = lij<N,1I<ki<M (6-86) 
me 
t=1 i#=1 


4) Viterbi 算法 的 处理 
对 Viterbi 算法 ,为 防止 数据 下 溢 可 采用 对 数 化 处 理 。 定 义 8 (GD) 为 
0, (17) -一 InaX logP (qi "人 2 sO:*0: 一 7 ,四 1 他?“""”” 0, / A) (0-87) 


Wh 


那么 Viterbi 算法 中 的 初始 化 公式 变 为 


01(2) = logrx; 十 logpiko)，1 过 1 和 用 (6-88) 
逆 推 公式 变 为 
0,(7) = MaxL 6. (2) + loga; jj 十 logLo (0.)] (6-89) 
终止 : 
1 有 ”= | (6-90) 
1<i<N 


这 样 得 到 的 是 P* 的 对 数值 ,而 不 是 P”。 应 该 指出 ,实际 上 为 了 避免 计算 出 的 概率 值 
P(O|) 太 小 ,而 总 是 采用 logP(O014)。 事 实 上 ,语音 识别 中 通常 是 比较 多 个 概率 值 之 间 的 
相对 大 小 ,并 由 此 作出 决 朱 。 因 此 取 对 数 运 算 后 , 既 可 以 防止 概率 值 的 下 洲 , 叉 不 会 影 啊 多 
个 概率 值 间 的 大 小 关系 。 

4. 马尔 可 夫 链 的 形状 以 及 HMM 类 型 

如 图 6-6 所 示 ,HMM 由 两 部 分 组 成 , 即 马尔 可 夫 链 和 随机 过 程 。 随 机 过 程 在 6. 4.1 市 
中 已 做 过 介绍 。 马 尔 可 夫 链 由 x、A 摘 述 ,显然 ,不 同 的 x.4 决定 了 马尔 可 夫 链 不 同 的 形状 。 
几 种 典型 的 马尔 可 夫 链 如 图 6-10 所 示 。 它 们 各 上 有 具 特 色 。 图 6-10(a)、 图 6-10(b) 是 两 种 特 
殊 的 马尔 可 夫 链 ,其 特点 为 : 一 定 从 状态 1 出 发 , 沿 状 态 序 号 增加 的 方 回 转移 ,最 终 集 止 在 
状态 5。 由 这 种 马尔 可 夫 链 构成 的 HMM ,一 般 称 之 为 左 一 右 模 型 (left-to-right model)。 这 
种 模型 在 实际 堵 首 处 理应 用 中 被 广汉 采用 ,尤其 是 在 孤立 词 识 别 中 。 图 6-10(c) 表 示 马 尔 
可 夫 链 从 任意 状态 出 发 ,在 下 一 时 刻 可 到 达 任 意 状 态 ,对 应 的 4 和 定 阵 没有 去 值 。 
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HMM 的 类 型 主要 有 连续 HMM 和 离散 HMM 两 大 
类 ,其 区 别 在 于 参数 B 的 形式 。 在 离散 HMM 中 ,参数 B O O ) 和 关 


是 一 个 概率 矩阵 ; 而 在 连续 HMM 中 ,所 有 状态 上 的 观察 |! 2 3 4 5 


概率 密度 函数 共同 形成 了 参数 B、 一 般 情 况 下 每 个 状态 的 (a) 无 跨越 从 左 向 右 模 型 
分 布 是 混合 高 斯 分 布 , 具 有 如 下 的 分 布 形式 : / / 

K 

Co) = > caN 0s » BD) (6-91) 

下 一 ] 
式 中 混合 系数 cr 满足 (b) 有 跨越 从 左 向 右 模 型 

K 

上 = (6-92) 

天 一] 


这 时 


T 
Pe [= || 起 .6 
t=1 


K K - (0) 全 连接 模型 
= | Too 0) Je wee 
i 1 Wo 图 6-10 语音 识别 中 几 种 第 用 
(6-93) HMM 结构 
式 (6-93) 中 的 加 数 部 分 可 以 表示 为 
于 
让 (6-94) 
f=] 
于 十 
POINV= > >, POWK | (6-95) 


所 有 QKEOT 


这 时 的 Q(C) 果 效 可 以 定义 为 


| (6-96) 
A P(OINW 
KEnD 
根据 式 (6-94) 可 以 得 到 如 下 公式 : 


logP(O,Q,K | 1) 


T 未 工 
2 hi 2 log bs (0:) 十 log tag, 


二 logAxy 十 i Wh > osz bs Co | i Ei (6=97) 


t 一 ] + 三 1 


这 样 重信 么 \ 式 中 似 然 度 的 最 大 化 可 以 通过 将 式 (6- 97) 中 单独 的 每 一 部 分 参数 最 大 化 来 实 
现 。Q() 困 数 可 以 重新 表示 为 各 个 独立 项 的 形式 , 即 


PIO,Q,K | 人) Se 
| 部 logP(O,Q,K | A) 
2 之 OTD 


TI 一 1 了 本 
= 5 GE S| oem + Plogao, + DlogBon (0) + Dlogeo, 
i 2 +t 三 1 


K 


= Q(z) 十 2 Sn” Seo, 村 启示 2Q。 3 (6-98) 


7 下 一 ] 


中 


QR) = > Pg 一 区 |0,)log 元 (6-99) 
] Mi 


下 


1—] 

Di Bn | (6-100) 
7 t=1 EK 
Li 

Q, ,5#) = DPlg: = j,k, =k|O,M)log Bb (0,) (6-101) 
=|] 
K T 

四 (6-102) 
k=1] t=1 


分 别 将 式 (6-99) 和 式 (6-100) 最 大 化 ,可 以 得 到 如 式 (6-56) 和 式 (6-57) 的 结果 , 而 将 
式 (6-101) 和 式 (6-102) 最 大 化 可 以 得 到 如 下 的 公式 : 


T 
> oj ,) 
1 


一 : (6-103) 
2,.70) 
Et 一 
T 
> 0， 
Uj 一 一 一 一 (6-104) 


T 
,werk) 
f= 1 


T 
Dk) C0 一 天) (0 — a) 
3 二 二 一 一 (6-105) 
放生 六 ) 
一 1 
这 时 ,在 上 时刻 从 状态 ;转移 出 去 的 概率 y (iD 和 上 上 时刻 从 状态 ; 转移 到 状态 7 的 概率 
&,(i,7) ,以 及 在 1 时刻 处 于 HMM 状态 7 的 第 & 个 高 斯 分 布 发 射出 的 概率 v,(j,k) 定 义 
如 下 : 


K 
Das Don (om) [Bn 
i < NBS=©@ 12 TC— 
Si POT 和 NB SS Lod | pi | 
(6-106) 
ey a (1)B, (1) 了 a 
i = Fr 一 是 3 .Wh 下 
7 (7z 1) CO 过 N,i = 1,2 | ek (6-107) 
N 
Da aycabn (0.)B Cj) 
E 2 i=] 2 
els) PDT (6-108 ) 


6.4.4 关于 HMM 训练 的 几 点 考虑 


1. 克服 训练 数据 的 不 足 

根据 HMM 的 定义 ,一 方面 ,一 个 HMM 的 模型 4 二 (x,A,B) 含 有 很 多 待 估计 的 参数 ， 
因此 为 了 得 到 满意 的 模型 ,必须 要 有 很 多 训练 数据 ,这 在 实际 中 很 难 办 到 。 男 一 方面 ,选择 
规模 较 小 的 模型 , 即 减 少 模型 中 的 状态 数 和 每 个 状态 上 的 混合 高 斯 分 量 数 , 也 有 实际 的 困 
难 。 在 训练 数据 少 的 情况 下 ,一 些 出 现 次 数 很 少 的 观察 值 没有 包含 在 整个 训练 数据 中 ,这 样 
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训练 出 的 HMM 参数 中 就 会 有 不 少 为 零 的 概率 值 。 而 事实 上 ,在 实际 语音 识别 测试 时 ,这 
些 观察 值 又 可 能 出 现 , 因 而 需要 对 训练 好 的 模型 进行 相应 的 处 理 。 一 种 常用 的 方法 是 将 一 
个 训练 较 充 分 ,但 细节 较 差 的 模型 与 一 个 训练 虽 不 充分 ,但 细节 较 好 的 模型 进行 混合 。 前 一 
个 模型 可 以 在 HMM 模型 结构 中 将 有 些 状态 转移 概率 及 观察 输出 概率 相近 的 进行 “捆绑 ”， 
即 一 些 转移 概率 或 观察 输出 概率 共享 相同 的 值 , 从 而 可 以 减少 模型 参数 。 这 样 使 用 相同 的 
训练 数据 就 可 以 对 这 种 “捆绑 ?后 的 模型 进行 较 充 分 的 训练 。 
合并 两 个 HMM 的 问题 可 以 表示 为 
A 一 roi (1 一世))， (6-109) 
式 中 ,4 二 (x,A,B) 为 结果 模型 ,1 二 (x ,4; ,Bi) 和 ,二 (x ,As,B,) 为 待 合 并 的 两 个 模型 ,分 
别 代表 前 面 提 到 的 两 种 类 型 的 模型 。0 三 w 三 1 为 合并 比例 系数 。 因 此 ,问题 的 关键 就 是 合 
并 权 值 w 的 估计 。 
-种 方法 是 人 工 选 择 权 值 w, 这 种 方法 的 局 限 性 很 明显 , 即 过 分 依赖 人 的 经 验 判 断 , 而 
日 工作 量 也 很 大 。 男 一 种 佑 计 ww 的 方法 就 是 者 名 的 删 插 (Cdeleted interpolation) 平 消 法 。 这 
种 方法 最 早 是 由 Jelinek 提出 ,随后 被 广泛 应 用 在 基于 HMM 的 语音 识别 系统 中 , 它 的 基本 


方法 如 下 : 
设 太 和 了 妃 为 1 和 Xs 模型 中 状态 7 对 应 的 观察 值 概率 ,6; 为 *4 中 状态 7 对 应 的 观察 值 


bx = whl 十 (1 CO— vw) (6-110) 

图 6-11(a) 给 出 了 状态 j 的 转移 结构 ,图 6-11(b) 给 出 了 根据 上 式 进行 合并 的 情况 。 可 

以 理解 为 ,4 模型 中 的 状态 7 被 3 个 状态 7” ji 和 js 所 取代 ,其 中 状态 ;没有 输出 观察 值 

概率 ,状态 ji 和 js 的 输出 观察 值 概率 分 别 为 如 和 565%, 从 状态 7* 转移 到 状态 j， 和 j; 的 概率 

分 别 为 ww 和 1 一 包 , 但 不 占用 时 间 ( 这 种 转移 称 为 空转 移 )。 于 是 佑 计 权 值 w 的 问题 就 转化 
为 一 个 典型 的 HMM 问题 ,因此 用 HMM 训练 算法 就 可 以 直接 估计 出 权 值 ww。 


(a) 状态 j 的 转移 结构 (b) 合并 的 情形 
图 6-11 删 持平 滑 法 示意 图 


一 个 合理 的 处 理 方法 是 : 将 所 有 的 训练 数据 分 成 几 部 分 ,一 部 分 数据 用 来 估计 w, 其 余 
的 数据 用 来 训练 MA 和 。 由 于 这 种 方法 对 总 的 训练 数据 的 划分 有 很 多 种 方式 ,由 此 得 到 了 
很 多 了 刀 值 。 对 这 些 z 值 , 册 用 一 个 循环 递归 处 理 , 可 以 求 出 所 需 的 权 值 w。 

对 于 合并 模型 ,统一 使 用 一 个 权 值 并 不 是 最 好 的 选择 。 更 好 的 合并 方式 是 对 模型 中 每 
个 状态 都 选 定 一 个 权 值 。 

从 Baum-Welch 算法 的 重 估 公式 ,可 以 推导 出 一 种 HMM 相对 可 菲 程 度 的 方法 ,这 样 ， 


就 可 以 得 到 竺 合并 的 两 个 或 多 个 模型 各 目的 相对 可 徘 程 度 , 由 此 确定 合并 时 的 权 信 。 这 种 
舍 计 权 什 的 方法 可 以 描述 如 下 : 
根据 重信 公式 ,考虑 用 上 个 观察 值 序列 来 训练 模型 A4 二 (x,A,B), 于 是 有 


上 L 
> 第 7 个 训练 序列 从 状态 i 到 j 的 转移 次 数 。 2 trans(i,j,?) 
a i=1 


dj 三 二 一 = 二 (6-111) 
> 第 7 个 训练 序列 位 于 状态 i 的 状态 数目 》 \ states(i,l) 
l=] /一 ] 


EE: 下 
>， 第 7 个 训练 序列 位 于 状态 j 输出 矢量 k 的 个 数 >)，vects(R,j ,7D) 
ll 


bi 一 一- 
> 第 7 个 训练 序列 位 于 状态 j 的 状态 数目 Sstates(j ,1) 
‘=1 {=1 
(86-112) 
可 以 看 出 ,上 面 两 个 公式 分 母 有 一 定 的 关系 , 令 
配 。 bates pa (6-113) 
> states(j ,1") 
r=1 
则 对 转移 概率 和 观察 输出 概率 的 估计 公式 可 以 重 与 为 
L EL 
a | trans(i,7 ,1) 2 二 
之 ,R， states(i,7) SR “i We 
下 | L 
Vecta(Rry et _ * RE 
Da SR states(j ,1) DR Bn RY 


分 析 式 (6-114)、 式 (6-115) 可 以 知道 , 当 用 工 个 训练 序列 获取 HMM 参数 时 ,每 次 迭代 
可 以 分 别 用 每 个 训练 序列 获取 相应 的 HMM 参数 ,再 加 以 合并 ,而 且 合 并 的 权 值 取决 于 各 
个 状态 上 当前 训练 序列 的 数目 占 全 部 训练 序列 数目 的 比例 。 因 此 可 以 认为 ,状态 数目 描述 
了 HMM 的 相对 可 徘 程 度 。 这 样 当 需 要 合并 工 个 HMM 时 ,对 任 一 状态 j, 合 并 的 权 值 可 
以 由 式 (6-113) 求 出 。 

由 于 这 种 估计 方法 是 从 Baum-Welch 算法 的 重 估 公式 导出 ,因而 在 最 大 似 然 意 义 上 是 
最 佳 的 ,而 且 对 于 每 个 状态 都 选取 一 个 合并 的 权 值 ,而 不 是 对 整个 符合 并 的 HMM 选取 权 
值 ,这 样 可 使 合并 的 结果 模型 更 好 。 显 然 , 使 用 这 种 方法 估计 权 值 ,在 训练 各 个 HMM 时 ， 
除了 保存 模型 参数 之 外 ,还 应 保存 相应 的 状态 数目 ,因此 需要 占用 较 多 的 存储 空间 ，。 

2. 处 理 说 话 人 的 影响 

由 于 语音 的 动态 范围 很 大 ,不 同 说 话 人 的 语 首 , 其 至 同一 说 话 人 在 不 同时 间 和 场合 的 语 
音 和 都 有 很 大 的 不 同 , 因 此 训练 HMM 时 ,元 分 考虑 说 话 人 的 影 啊 , 对 于 较 好 地 估计 HMM 人 参 
数 是 十 分 重要 的 。 这 个 问题 可 以 表述 为 : 设 训练 数据 集 Da 所 训练 出 的 模型 为 4 = (x,A， 
B)。 从 训练 过 程 可 知 ,X 反映 了 Ds 的 特性 。 如 果 又 增加 了 一 个 训练 数据 集 Da ,和 希望 经 过 

-个 处 理 过 程 ,Ds 的 特性 也 能 反映 在 结果 模型 之 中 。Ds 相对 于 Da 来 说 ,可 以 是 不 同 说话 

人 的 语音 ,也 可 以 是 同一 说 话 人 在 不 同时 间 所 发 出 的 语音 。 因 此 ,这 个 问题 对 语音 识别 , 尤 
其 是 非特 定 人 语音 识别 是 很 有 意义 的 。 

根据 Baum-Welch 算法 ,一 个 直接 的 处 理 方 法 就 是 一 起 使 用 Da 和 Das 重新 训练 一 个 模 
型 。 但 这 样 做 ,一 方面 不 经 济 , 没 有 利用 已 经 训练 好 的 模型 4 的 信息 , 另 一 方面 ,实现 起 来 也 
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有 困难 ,因为 在 很 多 实际 场合 中 并 没有 保留 训练 数据 集 D, ,而 只 保存 了 反映 其 特性 的 占用 
很 少 存 储 空间 的 模型 +4。 为 一 个 既 人 简单 又 容易 想到 的 方法 为 : 以 1 为 初始 模型 ,用 数据 Ds 
通过 重 估 公 式 进行 若干 次 迭代 ,得 到 新 模型 +4*”。 但 是 很 显然 ,这 个 4* 只 能 较 好 地 反映 数据 
集 Ds 的 特性 ,而 不 可 能 同时 很 好 地 反映 出 Ds 的 特性 。 

针对 这 个 问题 ,经 过 分 析 Baum-Welch 算法 ,可 以 给 出 一 种 处 理 说 话 人 影响 的 方法 , 它 
在 小 词汇 量 语音 识别 和 大 词汇 量 语音 识别 中 都 有 成 功 的 应 用 。 

由 重 估 公式 可 知 : 在 迭代 过 程 中 ,L 个 训练 序列 的 信息 是 由 工 个 训练 序列 分 别 计算 出 
的 转移 次 数 . 矢量 数 .状态 数目 ,通过 分 子 分 母 分 别 相 加 来 反映 在 友人 代 后 的 新 模型 参数 中 。 
那么 ,将 工 个 训练 序列 分 成 两 个 训练 数据 集 ,不 妨 也 记 为 DA 和 Das, 其 中 所 含 的 训练 序列 分 
别 为 Li 和 并 ,显然 Li 十 L;==L, 那 么 重 估 公式 可 以 改写 为 


LI L,; 
和 i 全 


(A) (BB) 
= by C—1 trans*” 十 trans 


A-116) 
| : : , states'”® 十 states'® 
bs states" (zs) 二 > states" (zl;) 


L] L, 
Vects (了 有) 十 » vecto 人 


二 jz=1 Vvects') 十 vects'® 
EE Ey 
2 states’” 十 states 
> states'® Ey PD > States(B) | 
j=] i =]1 


这 样 ,在 得 到 训练 数据 集 Da 和 训练 产生 模型 A 时, 不仅 保存 A 二 (x,A,B) 的 参数 ,还 保存 相 
应 的 转移 次 数 、 矢量 数 和 状态 数目 , 即 trans' 、vects' 和 states*“* 。 在 得 到 新 的 训练 数据 集 
Ds 时 ,以 4 为 初始 模型 ,得 到 新 的 模型 As 以 及 新 的 转移 次 数 、 矢 量 数 和 状态 数目 , 即 
trans'”” vects 和 states 2 ,按照 上 面 修改 后 的 转移 概率 和 观察 输出 概率 的 重 估 公式 所 求 
得 的 模型 A* 的 参数 ,就 可 以 既 反 映 数 据 集 Da 的 特性 ,又 反映 数据 集 Ds 的 特性 。 这 样 ,就 
能 使 HMM 参数 值 计 的 过 程 具有 很 好 的 目 适 应 性 和 很 强 的 有 目 学 能 力 。 只 要 增加 新 的 训练 
数据 ,通过 这 种 方式 最 后 产生 的 模型 就 能 反映 这 些 新 增 数 据 的 信息 。 

3. 基于 最 大 互信 息 的 HMM 

经 由 的 Baum-Welch 算法 ,实际 上 是 HMM 的 最 大 似 然 参数 估计 方法 , 即 给 定 训练 序列 
0, 使 P(OI14) 最 大 时 求 出 A。 最 大 似 然 佑 计 并 不 是 唯一 的 准则 ,也 不 是 在 所 有 情况 下 都 适用 
的 准则 。 为 此 ,人 们 提出 了 很 多 改进 的 途径 ,其 中 最 具有 代表 性 的 就 是 基于 最 大 互信 息 
(maximum mutual information) 准 则 的 舍 计 方法 。 研 究 表 明 : 当 事 先 假定 的 模型 不 正确 时 ， 
最 大 互信 息 估 计 冀 优 于 最 大 似 然 佑 计 冀 。 

对 训练 序列 O 和 模型 4 ,互信 息 的 定义 为 


1 P(O,XA) _, _P(O|X) 
TD = og po po 08 pa 
= logP(0O | 24) — logP (O) 
= logP(O | 1) — log DP(O | XW)PO") (6-118) 
- 


所 谓 最 大 互信 息 准 则 就 是 使 IQ,0) 最 大 ,从 而 求 出 4。 
但 目前 对 最 大 互信 息 估 计 还 没有 找到 类 似 于 最 大 似 然 估计 中 的 前 向 -后 回 算 法 那样 有 


效 的 方法 ,因此 ,使 I(X,0) 最 大 一 般 末 用 经 典 的 最 大 梯度 法 。 
4. 考虑 状态 驻 留 时 间 的 HMM 
经 典 HMM 中 的 马尔 可 夫 链 是 由 x、A 来 表征 ,因此 ,在 状态 i 上 相继 产生 4 个 观察 值 
的 概率 为 
p(tdy 二 《eg 人 一 站 (6-119) 
这 个 概率 值 p;(q) 描 述 了 状态 i 的 驻 留 时 间 (state duration) 。 显 然 , 这 是 一 个 指数 分 布 , 且 
其 最 大 值 出 现在 4 二 0 处 。 这 与 语音 的 物理 事实 不 相符 合 ,因为 在 HMM 应 用 于 语音 处 理 
中 时 ,状态 一 般 总 与 一 定 的 语音 单位 相对 应 ,而 这 些 语音 单位 都 具有 相对 稳定 的 分 布 。 针 对 
经 典 HMM 的 这 个 缺陷 ,月 20 世纪 80 年 代 中 期 以 来 ,很 多 人 研究 人 员 提 出 了 相应 的 改进 指 
施 ,基本 思想 都 是 在 马尔 可 夫 链 中 考虑 驻 留 时 间 的 非 指 数 分 布 p;(d)。 或 者 说 ,对 描述 马尔 
可 夫 链 的 参数 集 x、4 进行 修正 ,增加 一 项 描述 状态 驻 留 时 间 的 概率 值 总 (Cd) 。 
-种 最 百 接 的 方法 就 是 所 谓 非 参 数 方法 , 即 在 马尔 可 夫 链 参数 中 , 令 da 一 0, 同 时 ,增加 
状态 驻 留 时 间 概 率 分 布 p;(d),d 二 1,…,D, 其 中 D 为 所 有 状态 可 能 停留 的 最 长 时 间 值 , 那 
么 ,这 种 HMM 产生 的 输出 观察 值 序 列 的 过 程 为 : 由 x; 选择 初始 状态 qi ,根据 p,。 (4) 确 定 


d] 
状态 驻 留 时 间 di ,产生 di 个 观察 值 os …ow ,其 概率 为 [| 5。(o,), 再 根据 ww。 选择 下 一 
E=1 
"I {2 ob 午 复 这 个 过 程 ,和 耳 到 产生 整个 观察 值 厅 列 O°= oi 02°""°"0T., 
参数 pi;(qd) 可 以 与 HMM 其 他 参数 一 起 信 计 ,这 时 前 癌变 量 定 义 为 
a (1) 3 Pr(o OQ""* Ol 时 刻 结 束 于 状态 1 | A) (6-120) 
那么 ,a,(j) 的 递 推 公式 变 为 
N DD 下 
qj) = 2 aDaspyd)y | | (oo) (6-121) 


这 里 ,从 状态 i 到 状态 j 的 转移 不 仅 与 转移 概率 有 关 , 而 且 与 在 状态 j 的 持续 时 间 有 关 。 与 


PG | 2 = > arts) 人 为 


i 二 ] 
为 了 训练 这 种 修正 HMM ,导出 估计 其 参数 的 重 佑 公式 ,还 必须 定义 男 外 3 个 前 问 \ 后 


癌变 量 : 


ai) 一 Po ob… 0, 状态 z 始 于 上 十 1 1 和 ) (6-123) 
BC) = 二 Ponwror | 状态 i 止 于 #1,2) (6-124) 
B.(i) 二 P(o…or | 状态 i 始 于 zt 十 1, 和 ) (6-125) 
显然 "Cr 和 w， b 和 的 关系 为 
-NN 
6 7) = aa; (6-126) 
站 王者 
DD r 
qi) = ,dapid) [| 5;00,) (6-127) 
d= 二] 一 了 一 公信 
N ~ 
BA = (6-128) 


J 一 ]】 
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ta 
8.G) = Ppp (a) [| 6;C0,) (6-129) 
5 一 上 十 ] 
由 此 导出 的 重 估 公式 为 
- riBo (i) 1 
fi 一 p00 [万 (6-130) 
1 
Do 人 iasp, (7) 
一 (eisis 
>3 Da asp, (7) 
j=1 #=] 
T 
> | De Ep De (7)B. | 
t=] rt 
.= 
bx 一 下 C6- 132) 
3 > 之 (7)B. 一 De (7)B. | 
a 
T td 
> piCd) Bradi) [| 6;C0,) 
pi(d) = a (6-133) 


D 
2 Dae (Cd) Bra (i) ll (0,) 


增加 p.(d) 参 数 的 HMM 比 经 典 的 HMM 有 更 好 的 性 能 ,但 这 是 以 计算 量 和 存储 空间 
为 代价 的 。 特 别 是 要 估计 出 可 靠 的 参数 ， (di) ,需要 很 多 的 训练 数据 量 才 能 做 得 到 


C™ 所 
站 
凡生 1 


6.5 连接 词语 音 识 别 技 术 


在 讨论 连接 词语 首 识 别 之 前 , 先 回 顾 一 下 前 面 提 到 的 孤立 词 识别 问题 。 孤 立 词 识 别 是 
语音 识别 中 最 基本 的 问题 ,对 该 问题 的 研究 开展 得 最 早 ,也 是 目前 最 成 熟 的 技术 。 孤 立 词 识 
别 可 以 采用 矢量 量化 方法 .DTW 方法 及 HMM 方法 等 。 基 于 HMM 的 孤立 词 识别 系 统 的 
基本 思想 为 : 在 训练 阶段 ,用 HMM 训练 算法 为 系统 词汇 表 中 每 个 词 W; 建立 对 应 的 
HMM , 记 为 4;; 在 识别 阶段 ,用 前 问 - 后 癌 算 法 或 Viterbi 算法 求 出 各 个 概率 P(O|4;) 值 ,其 
中 ,0O 为 每 识别 词 的 观察 值 序列 ; 在 后 处 理 阶段 ,选取 最 大 的 PC(O14;) 值 所 对 应 的 词 W; 为 0 
的 识别 结果 。 需 要 注意 的 是 ,对 于 不 同类 型 的 HMM, 送 入 HMM 处 理 的 观察 值 序列 O 有 
所 不 同 。 例 如 ,对 于 离散 HMM ,一 般 求 出 语音 特征 参数 之 后 ,还 必须 做 天 量 量 化 ,这 样 观 测 
序列 就 是 由 VQ 码 字 序号 组 成 的 序列 。 对 于 连续 型 HMM ,语音 信号 经 过 预 处 理 、 特 征 提 取 
之 后 的 特征 参数 序列 就 是 相应 的 观察 值 序列 。 对 孤立 词 识 别 , 它 要 求 将 词 表 中 的 每 个 词 或 
短语 单独 发 音 , 之 后 将 该 发 音 作 为 一 个 整体 使 用 识别 算法 来 判断 出 结果 。 建 模 和 识别 过 程 
中 , 词 表 中 的 每 个 词 都 作为 一 个 整体 人 处理。 这 种 系统 结构 简单 ,主要 用 于 命令 和 控制 系统 。 

对 于 词 表 比较 大 ,又 希望 能 灵活 地 组 成 各 种 各 样 的 短语 和 人 句子 的 场合 ,孤立 词 识别 的 系 
统 结 构 就 显得 力不从心 。 一 方面 它 不 便于 结合 句法 规则 提高 识别 率 , 另 一 方面 ,对 一 个 数字 
序列 或 词 序列 ,以 拆 立 词 方式 发 音 是 非常 不 月 然 的 , 且 发 音 不 流利 ,表达 的 效率 低 。 因 此 ,将 
孤立 词 做 技术 扩展 ,进行 流利 语音 的 识别 具有 重要 的 意义 。 从 语音 识别 算法 的 角度 看 ,有 两 


类 流利 语 首 ,第 一 类 为 由 中 小 词 表 组 成 的 字 串 ,包括 数字 串 、 拼 写 的 字母 串 等 。 这 类 问题 中 
基本 的 语 首 识别 单元 ,可 以 像 扳 立 词 识别 一 桩 使 用 词 或 短语 ; 第 二 类 由 中 到 大 词 表 组 成 的 
连续 语音 识别 ,对 于 这 样 的 问题 ,由 于 复 灯 性 的 限制 ,基本 的 语音 识别 日 元 不 能 使 用 词 ,再 要 
使 用 比 词 小 的 于 词 作 为 基本 的 识别 单元 。 本 市 主要 讨论 前 一 种 以 词 为 基本 单位 的 连接 词 识 
列 技术 。 对 第 二 种 情况 将 在 下 一 三 中 讨论 。 

所 谓 连 接 词 识 别 ,就 是 指 系统 存储 的 HMM 是 针对 孤立 词 的 ,但 是 识别 的 语音 却 是 由 
这 些 词 构成 的 词 串 。 它 是 根据 给 定 的 发 音 序列 ,找到 与 其 最 优 匹 配 的 参考 模板 词 的 一 个 连 
接 序 列 。 为 此 ,必须 解决 如 下 的 问题 : 首先 ,尽管 有 些 时 候 知 息 序 列 中 主 长 度 的 大 致 苑 围 ， 
但 序列 中 词 的 具体 数量 工 未 知 ; 其 次 ,除了 整个 序列 首 末 端点 外 ,并 不 知道 序列 中 每 个 词 的 
边界 位 置 。 由 于 连 音 的 影 啊 ,很 难 指定 具体 的 词 边界 ,因此 , 词 的 边界 第 第 是 模糊 的 或 不 是 
唯一 的 ; V 个 词 在 词 串 长 度 为 L 的 情况 下 ,将 有 VV” 种 可 能 的 匹配 串 组 合 , 除 非 在 V 和 L 上 均 
很 小 的 情况 下 ,否则 对 这 种 指数 量 级 的 匹配 用 穷人 淮 的 方法 很 难 进行 。 


6.5.1 连接 词 识 列 问题 的 一 般 描述 


设 给 定 测试 发 音 的 特征 矢量 序列 为 0 二 {001) ,0(2),… ,oCMD)), 词 表 中 VV 个 词 的 模板 
分 别 为 Ri,R,,… ,Ry。 某 一 个 参考 模板 R; 具有 如 下 的 形式 
Ro 4 CN) le te (6-134) 
式 中 ,NN; 是 第 i 个 词 参 考 模板 的 帧 数 。 
连接 词 识别 的 问题 变 为 ,寻找 与 0O 厅 列 最 优 匹 配 的 参考 模 极 厅 列 R"。 不 妨 设 R* 中 有 
L 个 词 ,考虑 L 从 最 小 可 能 值 到 最 大 可 能 信 的 变化 。 这 样 在 优化 词 序列 的 同时 ,也 将 优化 过 
值 。 因 此 ,R 是 工 个 参考 模板 的 连接 , 即 
RR (Re OR DR wD Rs} (6-135) 
式 中 ,每 个 g* (可 能 是 [1,Vj 中 任意 一 个 模板 。 
确定 R* 就 是 要 确定 g" (四) 序列 ,1 硅 / 二 L, 考 虑 构建 一 个 超 模 板 R 
R’ = Ry © Res DB Ro PB BD Ro = (rn) ) 六 (6-136) 
式 中 ,N: 是 R’ 的 帧 长 。R: 与 O 间 的 距离 可 通过 DTW 完成 ,如 图 6-12 所 示 。 
D(R’,O0) = i ,7 (W (7n))) (6-137) 


WM po 1 


式 中 ,4d4(。,。) 为 局 部 特征 匹配 距离 ,W(。) 是 时 间 弯 折光 数 ,通过 图 6-12 中 合适 的 路 径 回 
溯 , 可 以 决定 斩 入 学 串 与 对 应 的 各 个 词 边界 帆 的 位 置 ,因此 第 一 个 参考 词 模 板 的 终止 帆 
rey (Na ) 对 应 测试 模式 的 ei 帧 ,第 二 个 参考 词 模板 的 终止 帧 ra CN ) 对 应 测试 模式 
的 第 ez 巾 , 依 此 类 推 。 

为 了 确定 全 局 的 最 优 匹配 R” ,对 所 有 可 能 的 局 部 参考 模式 g(1),g(2),…,qg(L), 以 及 
全 部 可 能 的 L(Lnn 侍 L 二 Lmx) 按 式 (6-137) 进 行 优 化 ,得 
了 d (ol(m) (人 (72 ) )) 


min 
q(1) ,9(2)," ,gq(L) WOm) ST 
lg 


DBD = mmnD(R' 0 = min 
R’ Li 人 上 专 L 


“max 


C6- 138) 
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6-12 超 模 板 与 测试 发 音 之 间 的 最 优 对 齐 路 径 示 意图 


R* = argminD (CR ,OO) (6-139) 
RR: 


对 式 (6-138) 百 接 计算 运算 量 太 大 。 为 此 ,研究 痢 提 出 了 很 多 解决 方法 。 本 将 讨论 
两 种 有 效 方 法 ,分 别 是 二 阶 动态 规划 算法 和 分 层 构 贷 鼻 法 。 


6.5.2 二 阶 动态 规划 算法 


这 个 方法 的 基本 思想 是 将 式 (6-138) 的 计算 分 成 两 个 阶段 完成 ,也 称 为 两 个 层 来 完成 。 
第 一 层 进行 词 内 匹配 ,利用 前 面 的 DTW 算法 , 找 出 测试 发 音 中 每 个 可 能 构成 词 的 一 段 , 并 
与 词 表 中 的 所 有 词 具 有 最 佳 匹配 的 一 个 发 音 , 将 其 距离 值 作 为 最 好 打分 ,并 记 住 对 应 的 词 标 
写 。 第 二 层 用 动态 规划 算法 进行 词 间 的 匹配 , 找 出 前 一 个 词 结束 点 时 的 总 体 宗 计 距 离 与 从 
这 一 结束 点 开始 到 下 一 个 词 的 结束 位 置 的 罕 计 距离 和 , 求 出 累计 距离 最 小 的 一 个 作为 新 的 
结束 点 的 累计 距离 , 逐 层 计算 ,最 后 从 测试 发 音 的 绪 束 位 置 进 行 回 蛮 。 

对 第 一 层 , 设 第 /个 词 可 能 的 起 始点 为 65, 结束 点 为 e, 可 以 求 得 对 应 测试 发 痛 中 5 到 e 
段 与 折 有 词 表 中 的 词 进行 匹配 时 距离 最 小 的 一 个 : 


DB = olin [Doda | (6-140) 
lw V 

NOY = ariniiaL DGosbyey (19 
lw Vv 


式 中 ,D(v,65,e) 表 示 起 始点 为 56, 结束 点 为 e 的 语音 段 与 模板 R。 之 间 的 距离 ; D(5,e) 对 应 
进行 模板 匹配 时 的 最 佳 距 离 值 ; 而 N(6,e) 对 应 具有 最 佳 距离 值 的 模板 标号 。 
知道 D(bp,e) 后 ,在 第 二 层 将 单独 的 参考 模板 进行 拼接 ,以 获得 对 测试 语音 序列 整体 的 累 


计 距 离 最 小 的 结果 。 这 可 以 通过 以 下 动态 算法 实现 。 图 6-13 
给 出 结束 于 e 的 在 干 条 路 径 的 情况 。 第 7 个 模板 结束 于 e 的 最 /A 
优 路 径 可 以 递归 和 定义 为 


忆 


.te) ee minlL Db,e) = 下 一 17 | (6-142) 图 6-13 结束 于 6 的 若干 
上 式 表 明 , 最 佳 路 径 上 第 /个 参考 模 极 结束 于 e 帧 时 的 累计 距 条 路 径 的 情况 


[9 
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离 , 是 所 有 可 能 的 起 始点 45 到 结束 点 e 的 距离 与 相应 的 5 的 前 接 第 1 一 1 个 模板 结束 于 0 一 1 
点 累计 距离 和 中 最 小 的 一 个 。 这 反映 了 前 面 动态 规划 方法 中 递归 的 基本 思想 ,其 中 递归 中 
的 “局 部 ”距离 就 是 第 一 层 动态 规划 时 获得 的 词 距离 D(b,e) 。 

基于 式 (6-142) 可 以 给 出 如 下 算法 : 

(1) 初始 化 


证 


% 


于 (0 ) 一 一 0)， D,(0) 汪 OO ，, ] = l < 和 
(2) 对 1!=] 
D'(e) = D(1,e), 2 二 区 MM 
(3) 递 推 ,对 e 从 71 二 2 到 Law 进行 循环 


gy i 
lhe 


再, 本 站 一 ii DD + BD Se 


lhe 
D,(e) = min[D (6,0) + Dl — 1)], | 
lpie 
(4) 最 优 解 
”= min | PCD | 
1 生生 Fax 
(5) 回 渊 


利用 D* 所 对 应 的 DC(5,e) ,可 以 找到 其 对 应 标号 N(5,e) ,以 及 最 优 路 径 上 第 2 个 模板 的 
起 始 位 置 5 ,而 5 一 1 即 为 第 ! 一 1 个 模板 的 结束 位 置 e。 通 过 D,_1(e) 可 以 找到 第 /一 1 个 模 


分 层 构筑 (level-building ,LB) 算 法 最 早 由 Bahl 和 Jelinek 提出 ,并 用 于 解码 中 。 后 来 
Myers 和 Rabiner 将 其 与 DTW 结合 ,Rabiner 与 Levinson 将 其 与 HMM 结合 分 别 用 于 连 
接 词 语 首 识别 ,获得 了 非 沼 好 的 结果 。 有 及 用 这 种 方法 在 识别 数字 串 时 ,可 以 大 幅度 减少 可 能 
的 路 径 数 日 。LB 算法 实际 上 是 Viterbi 算法 的 二 次 递归 应 用 , 它 将 待 识 语音 序列 按 模 板 可 
能 的 时 长 范围 划分 为 香干 段 ,每 段 称 为 一 层 , 可 能 对 应 一 个 词 。 算 法 首先 在 各 个 层 内 用 待 识 
语音 片断 与 各 个 模板 逐 点 进行 匹配 , 争 取 在 当前 层 中 找到 最 佳 匹配 路 径 , 接 肴 进行 逐 层 匹配 
求 出 整个 过 程 中 的 最 优 路 往 。 这 种 算法 在 进行 匹配 时 ,不 用 将 每 个 模板 部 进行 考察 ,看 其 是 
否 是 新 模板 的 开始 ,而 仅 考 察 各 层 边 界 附近 的 点 即 可 。 

下 面 将 讨论 LB 算法 分 别 与 DTW 和 HMM 绪 合 的 情况 。 

1. LB 算法 与 DTW 的 结合 

定义 D7(m) 为 在 第 1 层 , 使 用 参考 模板 RR, 与 待 识 语音 匹配 到 第 闷 帧 时 的 最 小 累计 距 
离 。 其 中 ,1 二/ 和 Lo 1 过 ov 生 V,1 生 mm 入 M。 第 一 层 的 实现 如 图 6-14 所 示 。 

第 一 个 参考 模板 R 与 待 识 语音 从 第 1 帧 开始 使 用 DTW 算法 进行 匹配 对 准 ,与 R, 的 
最 后 一 帧 (如 Ni) 相 对 应 的 待 识 语音 可 能 处 在 一 定 的 范围 内 ,如 图 中 aa (1) 夺 mm 硅 mm2 (1)， 
对 每 个 匹配 路 径 上 的 结束 点 ,存储 其 累计 距离 Di(m)。 类 似 地 ,第 二 个 参考 模板 R, 的 帧 长 
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mii(1) mia(1) 


MN 2 1(1) ma( 1) 


图 6-14 LB 算法 的 第 一 层 实现 过 程 


为 Ns , 它 仍 与 得 识 语 音 从 第 1 帧 开始 进行 匹配 ,在 mr (1) 夺 mm 硅 mzz 01) 的 范围 内 获得 最 优 
匹配 ,也 存储 其 累计 距离 Di(m)。 一 般 Ni 和 Ns 不 相等 ,所 以 mzi 关 mn ,mm2zz 关 mz。 在 第 
- 层 对 所 有 的 V 个 参考 模板 重复 上 述 过 程 , 则 有 
[Dl (Gn) ,mn (1) < mm A rm (1) 
[ID? (m),， A ~ 1) 


(6-143) 
D1) 

指定 第 一 层 的 端点 范围 m1 (1) 近 mm 过 ms (1) 为 所 有 Di (m) 窗 盖 的 范围 , 则 
放下 一 min La (1)] (6-144) 
mo ) 一 max Lm (1) (6-145) 

在 相关 的 端点 汇 围 mx (00 过 1 过 7 (7) 4 六 芭 需要 存储 如 下 的 参数 , 即 
Di(m) = min | D?(m) | (6-146) 

lw V 
NF(m) = arg min [D?(m))] (6-147) 
lv V 

FB (m) = FN (pn) (6-148) 


它们 依次 分 别 为 第 /1 层 到 达 第 m 帆 的 最 佳 距离 ,第 1 层 到 达 第 mx 帧 时 该 层 所 对 应 的 参考 模 
板 号 ,以 及 标记 到 达 D? (zz) 的 路 径 的 前 一 层 的 回溯 点 。 

由 于 第 0 层 结束 点 为 0, 所 以 对 所 有 的 妈 帧 FE 天 0。 通 过 仅 存 储 DP NP Cm) 、F? (mm)， 
可 以 明显 减少 每 一 层 的 存储 量 , 同 时 仍 保 存 最 优 路 径 所 需要 的 信息 。 


第 一 层 全 部 计算 完 后 ， i - 层 的 计算 ,图 6-15 给 出 了 第 二 层 计 算 的 情况 。 对 每 
个 参考 模板 R, ,第 一 层 中 每 个 结束 点 都 可 能 是 第 二 层 的 起 始点 ,因此 对 起 始 范 围 内 的 每 个 
帧 mm， ote 要 同时 考虑 前 一 层 的 累计 距离 以 及 每 个 参考 模 
板 与 测试 语 首 匹配 的 距离 。 类 似 于 第 一 层 ,每 个 参考 模板 的 帧 长 可 能 人 不同 ,因此 对 参考 模板 
Ri ,结束 点 的 范围 为 m1(2) 三 mm 三 7m12(2); 对 参考 模板 R, ,结束 点 的 范围 为 mw (2) 三 m 三 
mz2(2) 和 等。 对 第 二 层 ,仍然 可 以 获得 结束 点 的 范围 , 即 


mi1(2) = min [mw (2) | (6-149) 
lvV 

m2 (2) = max|m, (2) | (6-150) 
1 过 .ms 人 


mii(2) m12(2) 


= 


mi(1) ma( 1) m 


参考 模板 
上 > 


| mi(l) ma( 1) m 


We mn(2) mia(2) 
| AA 
/=2 
1 wa(l) ma(1) m 
| | 
mi(2) ma(2) mi 


图 6-15 LB 算法 的 第 二 层 实 现 过 程 


对 m1(2) 三 m 三 mz (2) 内 的 每 一 帆 , 确 定 最 佳 距离 D2 (m) ,最 佳 距离 所 对 应 的 参考 模板 
NS3(Cm) 和 回潮 点 F3 (mm)。 
重复 上 述 过 程 直 到 LL, ,最 优 解 为 
D* = min LD?(M)] (6-151) 


寺 { 三 LL 


为 了 更 好 地 理解 LB 算法 的 基本 过 程 ,下 面 给 出 一 个 简单 的 例子 。 如 图 6-16 所 示 ,假设 词 
表 中 有 两 个 词 A、B, 两 个 参考 模板 分 别 为 RA 和 Rs ,它们 具有 相等 的 帧 长 ,假设 只 有 ?一 4 
网 图 中 给 出 了 可 能 路 径 情 况 。 由 于 两 个 模板 是 等 长 的 ,因此 每 层 中 两 个 词 的 结束 范围 是 确定 

。 在 每 层 结束 范围 内 ,选取 每 帧 导 两 个 参考 模板 匹配 时 具有 最 小 距离 的 模板 作为 匹配 结 末 ， 
ep 累计 距离 和 回溯 点 。 在 这 个 例子 中 ,第 一 层 有 6 个 结束 点 ,前 2 帧 最 佳 路 径 对 
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应 Rs ,后 4 帧 对 应 Re。 第 二 层 有 10 个 结束 点 ,第 三 层 有 6 个 结束 点 ,最 终 在 第 四 层 对 应 测试 
发 音 M 只 有 一 个 结束 点 。 通 过 反问 跟踪 在 m 二 MM 结束 的 路 径 , 可 以 获得 最 佳 路 径 , 即 


[a = Rs OD R, WD R, (中 Rs (6-152) 
它 给 出 了 与 测试 发 音 结束 帧 ej ,es ,es 和 e 一 M 对 应 的 4 个 词 的 序列 。 
> B 

{=4 

[=3 

[=2 

[一 ] 

1 el 22 23 ea=NM 


图 6-16 ”两 种 等 长 参考 模板 的 LB 算法 的 例子 


通过 这 种 分 层 构 筑 方法 减少 了 二 阶 动态 规划 算法 中 的 运算 量 , 但 其 相应 的 计算 不 是 时 
间 同 步 的 ,而 是 层 同步 的 , 即 在 很 多 层 上 进行 匹配 计算 时 ,可 能 要 回 到 前 面 可 能 处 理 过 的 测 
试 帆 ,这 样 很 难 用 硬件 实时 实现 。 

2. LB 算法 与 HMM 的 结合 

LB 算法 也 可 以 与 HMM 结合 。 它 跟 与 DTW 结合 方法 的 区 别 在 于 进行 每 一 层 的 匹配 
时 采用 的 方法 不 同 。 

假设 HMM 为 N 状态 的 具有 天 个 高 斯 密度 混合 的 模型 ,测试 语音 的 特征 矢量 序列 的 
巾 标 号 为 m2,1 三 m 三 M ,第 m 帧 测试 语音 的 特征 天 量 为 0;, 则 其 对 参考 模板 R" 的 第 j 个 状 
态 的 对 数 似 然 为 


K D | 
= og| a 本 | (6-153) 
k=1 避 = 二 1 


分 层 构 筑 的 算法 就 是 要 计算 对 参考 模板 R", 沿 着 最 优 路 径 在 第 1 层 的 第 m 帧 的 累计 对 

数 似 然 P7Cm) ,其 中 1 和 1 过 M, 1 过 zz 生 V 1 过 /过 Li 以 及 该 层 上 的 最 佳 匹配 模型 和 最 佳 回 
溯 位 置 等 。 在 每 一 层 的 结尾 计算 层 的 最 佳 打分 。 

Pr (m) 一 maxP?(m) ; ll] 三 mm 三 MM (6-154) 


es 


Ni (my = HrR maxP?(m) 有 (6-155) 
1 vw VW 


FE = FM (nm), lm 人 MM (6-156) 
最 优 解 为 
PR” = mar 1 Ra | (6-157) 


6.6 ”大 词 表 连 续 语音 识别 中 的 声学 模型 和 语言 学 模型 


语音 识别 研究 中 意义 最 重大 、 应 用 成 果 最 丰 宇 ,同时 最 具有 挑战 性 的 研究 读 题 是 大 词汇 
量 .非特 定 人 连续 语音 识别 。 一 般 连 续 语 音 识 别 系 统 的 词 误 识 率 大 致 等 于 孤立 词 识别 系统 
词 误 识 率 的 3 一 5 倍 , 而 非特 定 人 识别 系统 的 词 误 识 率 大 致 是 特定 人 识别 系统 的 3 一 5 倍 。 
此 外 , 当 词 汇 量 大 于 1000 词 时 , 易 混 消 的 相似 词 数 量 将 大 大 增加 。 这 样 粗 略 算 来 ,大 词汇 量 
韭 特定 人 的 连续 语 首 识别 系统 的 词 误 识 率 大 体 为 小 词汇 量 、 特 定 人 的 孤立 词 识别 系统 词 误 
识 率 的 50 倍 左右 。 

此 外 ,在 连续 语音 识别 系统 中 ,下 面 两 个 重要 问题 是 孤立 词 识别 中 没有 的 。 

(1) 切 分 : 对 整个 短语 进行 识别 显然 是 不 可 能 的 ,因为 语言 中 短语 的 数量 太 大 ,必须 把 
输入 的 语 流 切 分 为 更 小 的 组 成 部 分 ,人 类 感知 语音 也 是 这 样 做 的 。 因 为 连续 语音 中 间 没 有 
间 睦 ,所 以 在 识别 前 必须 对 把 各 字 分 开 , 这 要 求 系统 必须 能 够 识别 单词 之 间 的 边界 。 但 这 是 
非常 困难 的 ,因为 确定 单词 间 的 边界 位 置 还 没有 现成 的 方法 。 尽 管 有 时 可 以 采用 能 量 最低 
点 作为 边界 ,但 通常 还 要 根据 发 音信 息 再 加 以 验证 。 

(2) 发 音 变 化 : 连续 语音 的 发 音 比 孤立 词 发 首 更 随便 , 受 协 同 发 音 的 影 啊 也 更 为 严重 。 
另外 ,连续 语音 识别 系统 中 的 很 多 问题 都 与 语言 学 知识 有 关 ,特别 是 大 词汇 量 识别 系统 要 更 
多 地 强调 语言 学 知识 的 运用 。 

虽然 进行 大 词汇 量 连 续 语 音 识 别 面临 各 种 困难 ,但 在 20 世纪 90 年 代 初 期 已 经 取得 了 
右 干 突破 性 的 进展 。 这 一 进展 依赖 于 在 识别 系统 中 采用 HMM 算法 的 统一 框架 ,以 及 非常 
细致 的 将 声学 、 语 首 学 和 语言 学 的 知识 引入 到 这 一 框架 。 现 在 统一 的 做 法 是 将 整个 识别 系 
统 分 为 3 层 : 声学 一 语音 层 \ 词 层 和 人 句法 层 。 声 学 一 语音 层 是 识别 系统 的 底层 , 它 接受 输入 
语音 ,并 以 一 种 “ 子 词 (subword)” 单 位 作为 其 识别 输出 ,每 个 子 词 单位 对 应 一 套 HMM 结构 
和 参数 。 词 层 规定 词汇 表 中 每 个 词 是 由 什么 音 双 一 音 子 串 接 而 成 的 。 最 后 的 句法 层 中 规定 
词 按照 什么 规则 组 合成 句子。 最 近 的 很 多 人 研究 部 采用 概率 式 句 法 结构 , 它 的 优点 是 可 以 采 
用 HMM 框架 ,从 而 与 其 他 层次 构成 一 个 统一 的 结构 。 

图 6-17 显示 了 用 HMM 作为 统一 框架 的 识别 系统 。 在 最 高 层 即 句法 层 中 ,每 个 句子 
由 硅 干 词 条 组 成 ,每 一 个 词 条 都 选 目 词汇 表 。 句 中 的 一 个 要 选择 的 词 条 以 一 定 的 概率 出 现 ， 
而 选择 第 二 个 词 条 的 概率 与 前 一 个 词 条 有 关 , 依 此 类 推 , 直 到 句子 的 结束 。 在 此 框架 的 第 二 
层 一 词 层 ,每 一 个 词 条 由 硅 干 音 子 串 接 而 成 ,例如 词 条 Al 由 < 2、 、 组 成 ,为 此 需要 一 部 
字典 来 描述 每 一 个 词 条 是 如 何 用 音 子 串 接 而 成 的 。 在 第 三 层 声学 一 语音 层 , 每 一 个 音 子 用 
-个 HMM 模型 及 一 套 参数 来 表示 。 每 一 个 HMM 模型 中 最 基本 的 构成 单位 是 状态 及 状 
态 之 间 的 转移 跌 。 这 样 , 从 状态 出 发 和 逐 层 扩大 到 音 子 .词句 子 。 每 一 个 句子 是 包含 许多 状 
态 的 复杂 的 状态 图 ,该 句子 就 是 用 由 所 有 状态 形成 的 结构 ,状态 之 间 的 转移 概率 ,以 及 每 个 
转移 弧 产 生 某 个 特征 输出 的 概率 来 描述 的 。 对 于 特定 的 词 表 和 句法 ,所 有 可 能 出 现 的 句子 
构成 了 一 个 更 大 的 状态 图 。 在 完成 识别 任务 时 ,要 根据 一 个 输入 语音 特征 矢量 序列 来 确定 


198 大 | 语 首 信 号 处 理 (第 3 版 ) 


一 个 最 可 能 的 句子 。 这 就 需要 在 这 个 大 的 状态 图 中 搜索 一 条 路 经 ,该 路 径 上 产生 上 述 特 征 
矢量 的 概率 最 大 ,由 路 径 可 以 进一步 确定 句子 中 的 每 一 个 词 。 


词 条 A2 一 句 
条 结束 让 
川上 问 条 Al 词 条 B3 . 生 
\A 词 条 Bi 

词 
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\ 语 

Tr 
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图 6-17 用 统一 的 HMM 框架 构成 的 语音 识别 系统 


大 词 量 连续 语音 识别 总 体 框架 可 以 用 图 6-18 来 描述 。 语 音信 号 先 经 过 分 析 后 形成 特 
征 矢量 ,并 按 字典 要 求 和 子 词 模型 集合 串 接 成 的 词 模型 进行 识别 ,然后 根据 语言 模型 的 句法 
限制 在 句子 级 进行 输入 语音 与 参考 模板 间 的 匹配 ,最 后 识别 出 相应 的 句子 。 下 面 分 别 从 声 
学 模型 .语言 学 模型 方面 叙述 大 词汇 量 连 续 语音 识别 的 内 容 。 


语音 输入 


i 识别 的 甸子 
| 间 级 匹配 [一 一 一 | 句子 级 匹配 | 一 一 


| 词 模型 语言 模型 
间 模 型 的 拼接 


图 6-18 ”基于 子 词 单元 的 连续 语音 识别 系统 总 体 框 图 


6.6.1 声学 模型 

语音 识别 系统 的 底层 , 即 声 学 一 语音 学 层 是 系统 的 瓶颈 。 这 一 部 分 需要 细致 地 设计 相 
应 的 日 MM 子 词 单元 模型 ,充分 吸取 有 关 声 学 和 语音 学 的 知识 ,并 建立 一 套 有 效 的 训练 算 
法 ,下面 分 别 讨论 这 些 问 题 。 

1. 基本 声学 单元 的 选择 

基本 声学 单元 (简称 基 元 ) 的 选择 是 声学 模型 建 模 中 一 个 基本 而 重要 的 问题 。 在 汉语 连 
续 语 音 识 别 中 ,可 以 选择 的 基 元 包括 词 (word)、 音 节 (syllable) 、 半 音节 (semi-syllable) .声韵 
母 (Cinitial/final) 和 音 么 (phone) 等 。 识 别 基 元 的 选择 一 般 基 于 声音 学 知识 ,也 可 以 基于 数据 


驱动 方式 产生 。 使 用 数据 驱动 方式 确定 的 基 元 ,可 能 在 语音 学 上 没有 什么 明确 的 意义 ,但 是 
可 以 达到 很 好 的 性 能 。 

在 前 面 讨 论 的 孤立 词语 音 识别 和 连接 词语 音 识别 时 ,把 词 或 短语 作为 一 个 基本 的 语音 
单元 ,由 于 连续 语音 中 词 与 词 之 间 的 相互 影响 比 起 词 内 音素 或 音节 的 相互 影响 还 是 要 小 得 
多 ,以 词 作 为 基本 单元 建立 模型 ,对 于 简化 识别 系统 的 结构 和 训练 过 程 是 很 有 效 的。 但 对 大 
词汇 量 连续 语音 识别 系统 来 说 ,采用 词 作 为 基本 单元 建 模 就 不 合理 了 。 在 连续 语音 识别 中 ， 
以 词 为 基本 单元 ,各 种 音 联 关系 可 能 得 不 到 充分 的 训练 ; 并 且 以 词 为 基本 单元 构成 的 系统 ， 
需要 的 存储 量 很 大 ,计算 复杂 度 很 高 ; 由 于 词 内 的 各 音素 重复 出 现 , 造 成 大 量 不 必要 的 元 余 
存储 和 计算 。 因 此 在 大 词汇 量 连 续 语 音 识 别 中 ,一般 采 用 比 词 小 的 于 词 识别 基 元 ,如 音节 、 
半音 节 等 。 一 般 来 说 ,声学 单元 越 小 ,其 数量 也 就 越 少 , 训 练 模型 的 工作 量 也 就 越 小 ; 但 是 
另 一 方面 ,单元 越 小 ,对 上 下 文 的 敏感 性 越 大 , 越 容 易 受 到 前 后 相 邻 的 影响 而 产生 变异 ,因此 
其 类 型 设计 和 训练 样本 的 采集 更 困难 。 

对 于 音节 ,在 汉语 中 有 无 调 音 节约 400 个 ,如 果 考 虑 声调 有 1300 多 个 。 在 进行 上 下 文 
无 关 的 声学 建 模 时 ,使 用 有 调 音 节 或 无 调 音节 都 可 以 取得 很 好 的 性 能 。 尽 管 以 音节 作为 识 
别 基 元 能 很 好 地 刻画 音节 内 部 的 变化 ,但 在 连续 语音 识别 中 , 音 市 加 的 协同 发 音 现象 比较 严 
重 , 因 此 需要 采用 适当 的 方式 来 描述 这 种 现象 。 

一 般 在 声学 建 模 中 ,考虑 上 下 文 相 关 信 息 , 这 样 识别 基 元 就 会 变 成 上 下 文 相 关 的 基 元 。 
当 考 虑 上 和 下文 信 息 时 , 基 元 的 数目 会 变 得 非常 庞大 ,这 将 导致 声学 模型 的 规模 变 得 无 法 接 
受 。 同 时 ,由 于 基 元 数目 过 大 ,也 会 引起 训练 数据 稀 踊 的 问题 ,从 而 很 难 准 确 地 估计 出 模型 
的 参数 。 因 此 在 进行 上 下 文 相关 建 模 时 ,不 适宜 采用 首 市 模型 。 

基于 音 系 的 基 元 在 喘 语 连续 语音 识别 系统 中 得 到 了 广 沁 的 应 用 。 音 条 在 汉 诸 中 有 30 
多 个 ,但 它 并 没有 有 反映 出 汉语 语音 的 特点 , 且 相 对 于 声韵 母 ,音素 显得 更 加 不 稳定 。 此 外 ,对 
音 取 基 元 而 言 , 它 难以 进行 声学 描述 ,也 很 难 进行 手工 标注 。 

对 于 半音 扩 和 声韵 母 而 言 ,它们 在 形式 上 非常 接近 。 半 音 市 是 将 首 闻 分 成 两 个 部 分 ,而 
声韵 母 的 划分 更 加 依赖 于 汉语 语音 学 的 知识 。 声 韵母 基 元 是 适合 汉语 特点 的 一 种 识别 基 
元 :其 有 具有 人 也 平 他 局 ， 

(1) 汉语 中 的 汉字 是 单 音节 ,而 汉 博 中 的 音节 是 声 竟 结构 ,这 种 独特 而 规则 的 结构 ,使 
对 音节 及 词 条 的 表示 变 得 比较 规则 和 统一 。 

(2) 使 用 声韵 母 作 为 识别 基 元 ,上 下 文 相 关 信 息 将 比较 确定 。 例 如 ,与 声母 相连 接 的 只 
能 是 韵母 或 者 静音 ,而 与 韵母 连接 的 只 能 是 声母 或 静音 。 这 样 的 规则 会 大 大 减少 上 下 文 相 
关 的 声韵 母 基 元 数目 。 

(3) 声韵 母 结 构 是 汉语 音节 特有 的 一 种 结构 ,很 多 关于 声韵 母 的 语言 学 方面 的 知识 可 
以 利用 ,以 优化 上 下 文 相关 的 声学 模型 。 

2. 基 元 的 扩展 

这 里 主要 对 音素 基 元 形式 的 上 下 文 相 关 扩 展 加 以 说 明 ,单纯 的 声母 .前 母 的 音素 , 称 为 
上 下 文 无 关 (Ccontextrindependent) 的 音 系 , 傈 称 单 音 和 率 (monophone)。 所 谓 上 和 下文 相 关 音 
素 ,就 是 考虑 一 个 音素 与 其 左 或 右 相 邻 育 素 的 相关 情况 后 选取 的 基 元 。 这 样 对 N 个 基 元 ， 
就 可 能 存在 N 个 左 或 右上 下 文 相关 基 元 , 称 为 双 音素 (diphone) ,可 能 存在 N 个 左 和 右上 
下 文 相关 的 音 系 , 称 为 三 彰 系 (triphone)。 
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二 凑合 于 处 娃 ( 全 8 由 ) 

三 音素 又 可 分 为 两 种 ,逻辑 三 音素 和 物理 三 音素 。 前 者 指 语言 上 可 能 的 音素 组 合 , 即 在 
语言 中 可 能 出 现 的 音素 组 合 ,一 般 情况 下 可 以 分 为 声母 十 韵母 ( 句 首 )、 声 母 一 韵母 ( 句 尾 )、 
声母 一 前 母 十 声母 .前 母 一 声母 十 前 母 几 种 ; 后 者 指 训 练 语音 数据 中 出 现 的 音 厅 组 合 。 对 
汉语 来 说 ,逻辑 三 音 系 的 个 数 约 为 50 160 个 ,考虑 到 一 些 不 可 能 的 再 章 组 合 , 实 际 情况 要 少 

- 些 。 声 韵 组 合 有 两 种 形式 ,前 声 后 韵 和 前 韵 后 声 。 按 照 22 个 声母 和 38 个 韵母 计算 ,每 种 

组 合 都 有 814 种 组 合 情 况 。 前 声 后 韵 的 组 合 表现 为 一 个 音节 字 , 实 际 上 只 有 400 多 个 ; 而 
前 竟 后 声 的 组 合 ,主要 表现 在 音节 字 间 的 组 合 。 

在 训练 语音 模型 时 ,一 般 应 该 保证 每 个 三 音 系 在 训练 数据 中 出 现 的 次 数 不 少 于 10 次 。 
如 果 出 现 次 数 过 少 , 则 不 能 保证 模型 的 准确 性 ,这 称 为 训练 数据 稀 跑 。 最 直接 解决 这 种 问题 
的 方法 是 ,根据 一 些 准则 对 上 下 文 相 关 的 音 率 进行 聚 类 ,并 根据 聚 类 进行 状态 共享 ,以 此 来 
解决 效 据 稀 足 的 问题 。 稼 见 的 状态 共享 策略 有 基于 数据 驱动 和 基于 决策 树 的 两 种 。 

1) 基于 数据 驱动 的 状态 共享 策略 

HTK(HMM tool kit) 提 供 了 一 种 基于 最 小 类 合并 的 数据 驱动 的 聚 类 方法 ,如 图 6-19 
所 示 , 它 在 初始 时 将 所 有 状态 都 作为 一 个 类 ,每 次 合并 两 个 最 小 的 类 ,下 到 最 大 类 的 大 小 达 
到 一 个 国 值 或 者 类 的 数目 达到 聚 类 的 要 求 。 


图 6-19 数据 驱动 的 状态 约束 


然而 ,这 种 数据 驱动 的 聚 类 方法 受 可 用 数据 的 限制 , 即 它 不 能 处 理 语 音 数 据 中 没有 样本 
的 三 音素 。 尽 管 在 构筑 一 个 词 内 的 三 音素 模型 时 ,通常 可 以 通过 仔细 设计 训练 数据 库 来 克 
服 这 个 问题 。 但 在 构建 一 个 大 词汇 量 的 词 间 三 音素 模型 时 ,这 个 问题 将 无 法 避免 。 基 于 决 
策 树 的 聚 类 方法 ,可 以 获得 与 数据 驱动 聚 类 方法 类 似 的 聚 类 效果 ,同时 还 能 处 理 训练 数据 中 
没有 出 现 的 三 音素 。 

2) 基于 决策 树 的 状态 共享 策略 

假设 上 下 文 相 关 的 基 元 可 表示 为 “l-c 十 r/env”, 其 中 ,c 表示 中 心 基 元 ,] 为 左 相 关 信 息 ， 
r 为 右 相 关 信 息 ,env 则 表示 该 基 元 所 在 位 置 的 一 些 环境 特征 。 可 能 的 环境 特征 包括 前 接 音 
六 声调 .当前 音节 声调 .后续 音 节 声 调 .当前 音节 到 前 一 月 然 停 顿 的 字数 .当前 音节 到 后 一 月 
然 停顿 处 的 字数 、 前 接 词 的 词性 、 当 前 词 的 词性 ,后 续 词 的 词性 、 当 前 音节 在 当前 词 中 的 位 


置 .当前 词 的 音节 数 .音节 所 在 句子 的 长 度 等 。 
E 这 种 情况 下 ,决策 树 的 分 裂 依赖 于 问题 集 的 设计 。 为 了 定义 问题 集 , 应 先 来 确认 划分 


性 和 基 元 的 上 下 文 相关 信息 。 


发 首相 似 性 的 特征 包括 韵母 划分 特征 、 声 母 划分 特征 ,分 别 如 表 6-1 和 表 6-2 所 示 。 


表 6-1 韵母 划分 特征 


基 元 列表 


Single yun aylyuyeyoyvVyicyih 
Com yun anyaliyang,…yvVn 
Type A 含有 a 的 韵母 aylayanyangyaly uayao 
lypeL eyleyVeyelyUel 
Type 工 1yalyelyuelylaylanylangyliaoyieylnyingylongylou 
Type O 0,a0, U0;0U, ONg,iou 
Type U 含有 nu 的 韵母 usua:s uen,: ueng, uO,10u 
Type V 含有 v 的 韵母 VyVnyVe 
表 6-2 声母 划分 特征 
划分 特征 摘 述 基 元 列表 
本 
Atfricate z,zh,j,c,ch,q 
Aspirated affricate zzhsi 
Unaspirated affricate cch,q 
Fricative f,s,sh,x,h,r 
Fricative2 f,s,sh,x,h,r,k 
Voiceless fricative {,s,sh,x,h 
Voice fricative rsk 
Labial2 层 音 2 b,pym'f 
Apical zcysyditynyl,zhychyshy,r 
Apical2 顶 音 2 d,t 
Apical end zh,ch, sh,r 
Red en a 
XFuyin 全 部 声母 (包含 零 志 母 ) 略 
Fuyin 咯 


202 硬 || 语音 信号 处 理 (第 3 版 ) 
为 使 决策 树 的 分 裂 更 加 细致 ,可 以 将 每 个 声 ( 前 ) 母 作为 一 个 划分 特征 ,这 就 是 单 基 
元 划分 特征 。 最 后 再 加 上 句 首 ( 尾 ) 静 音 、 句 中 由 逗号 和 顿 号 造成 的 停顿 ,以 及 其 他 的 短 
对 基 元 的 上 下 文 相关 信息 ,可 以 从 句子 中 选用 如 表 6-3 的 信息 作为 划分 特征 。 
表 6-3 上 下 文 相关 信息 划分 特征 


基 元 所 在 音 广 的 前 接 首 方 的 声调 基 元 所 在 词 的 前 接 词 的 词性 
基 元 所 在 首 广 的 声调 基 元 所 在 词 的 词性 

基 元 所 在 音节 的 后 续 音 节 的 声调 基 元 所 在 词 的 后 续 词 的 词性 
基 元 所 在 音节 在 韵律 短语 中 的 位 置 ( 正 辐 ) 基 元 在 其 所 在 词 中 的 位 置 
基 元 所 在 音节 在 韵律 短语 中 的 位 置 ( 反 回 ) 基 元 所 在 词 的 音 太 数 


在 确定 了 划分 特征 后 ,根据 划分 特征 来 定义 决策 树 的 问题 集 。 对 于 发 音 相似 的 特征 ,每 
个 特征 会 对 应 三 个 问题 : 左 问题 .中 心 问 题 和 右 问 题 。 其 中 对 于 单 基 元 划分 特征 和 声母 的 
划分 特征 ,其 对 应 问题 的 答案 是 对 称 的 ,例如 : 塞音 (Cstop) 对 应 的 三 个 问题 为 

(1) QS “L stop” {b-¥*x ,d-x*x ,g-* ,p-* ,t-* ,k-x)} 

Ca a" pn” {BE 

(3) OS OD estop’ tb Es 
其 中 , 单 引 号 中 的 部 分 为 问题 的 标识 ; 大 括号 内 的 部 分 为 问题 的 管 案 。* 和 ? 为 通配符 ,如 
“hb- 关 ”代表 所 有 以 “b- ”开头 的 上 下 文 相关 基 元 。 

对 于 部 分 韵母 的 划分 特征 ,其 问题 的 答案 是 非 对 称 的 ,例如 ， 

QS“L Type A” {a? - 关 ，ia7 -¥X ,ua? - 关 ， A-*)} 

和 

对 于 上 下 文 相关 信息 的 划分 特征 ,问题 的 设计 方式 为 : 首先 对 每 个 单独 的 划分 特征 建 
立 各 日 的 问题 ,人 然后 对 关系 密切 的 划分 特征 建立 联合 的 问题 。 例 如 ,QS “C _tonel”{x*/A' 
? _1_? /Bx }) 代 表 了 所 有 当前 音节 为 一 声 的 基 元 ; 而 QS ‘CR tone3 _ 3” {x*/A:;? 3 3/ 
Bx } 则 代表 当前 音节 为 三 声 而 后 续 音 节 也 为 三 声 的 基 元 。 这 样 设计 的 好 处 在 于 : 可 以 把 
汉语 中 一 些 变 调 的 规则 加 入 问题 集中 ,经 过 训练 ,上 下 文 相 关 的 基 元 中 可 以 包含 变调 的 
声 首 。 

建立 问题 集 后 ,就 可 以 构建 决策 树 。 考 虑 到 基 元 的 拓扑 结构 中 ,第 一 个 状态 和 最 后 一 个 
状态 分 别 为 起 始 状 态 和 结束 状态 ,它们 只 是 在 模型 中 起 辅助 作用 ; 而 其 余 状 态 可 以 驻 留 或 
者 转移 到 下 一 个 状态 。 因 此 ,真正 起 作用 的 是 中 辐 的 几 个 状态 。 在 构造 决策 树 时 ,一 般 只 考 
虚 中 间 的 几 个 状态 。 

决策 树 的 构造 有 两 种 方法 。 

方法 上 : 对 每 个 中 心 基 元 的 每 个 状态 分 别 构 造 决 宁 树 。 该 方法 假设 当 基 元 的 中 心音 系 
不 同时 , 基 元 之 间 相 互 独 立 ,因此 首先 根据 中 心音 兹 对 所 有 的 基 元 进行 分 类 ,然后 再 利用 决 
末 树 来 进行 状态 共享 。 图 6-20 给 出 了 中 心 基 元 为 a 的 所 有 基 元 的 状态 4 组 成 的 决 案 树 示 

方法 上: 对 所 有 基 元 的 同一 状态 构造 决 宁 树 。 该 方法 假设 当中 心音 系 不 同时 , 基 元 之 
加 仍然 有 一 定 重 登 。 即 使 基 元 的 中 心音 系 不 同 , 它 们 之 间 的 状态 仍然 有 可 能 共享 。 基 元 之 


图 6-20 ”由 方法 工 构造 决策 树 示 例 


间 的 状态 共 圣 情况 依赖 于 决 案 树 的 分 类 末 略 。 如 图 6-21 给 出 所 有 基 元 的 状态 4 组 成 的 决 
末 酌 示意 图 。 


图 6-21 由 方法 人 [构造 决策 树 示例 


对 于 方法 1 , 共 知 要 构建 “ 基 元 总 数 X 有 效 状态 数 ”" 颗 不 同 的 决策 树 ,这样 , 只 有 相同 基 
元 的 状态 才 会 锌 共 童 。 而 对 于 方法 工 , 决 各 树 的 数量 与 基 元 的 有 效 状 态 数 相同 ,在 这 里 ,所 
有 基 元 的 状态 进行 共 理 ,不同 基 元 中 一 些 发 音 相似 的 状态 也 被 共 亨 捆绑 到 一 起 ,这 样 有 助 于 
减 小 最 终 模 型 的 规模 ,并 可 以 在 一 定 程 度 上 提高 对 训练 集中 未 出 现 基 元 的 项 健 性 。 

决 保 例 由 日 项 而 下 的 顺序 生成 。 首先 ,将 所 有 的 状态 放 入 根 结 点 中 ,然后 进行 结 点 分 
费 。 扩 点 分 八 依 赖 于 评估 图 数 。 决 宁 树 评 佑 因数 用 来 估计 决 宁 树 的 结 点 上 的 样本 相似 性 。 
可 以 选择 对 数 似 然 概 率 作 为 千 点 分裂 的 评 佰 函数 。 在 每 个 结 点 进行 分 询 时 ,可 以 从 问题 集 
中 选择 一 个 问题 ,然后 根据 此 问题 把 结 点 分 成 两 个 子 结 点 ,并 且 计 算 评 倍 了 轴 数 的 增 量 。 可 以 
选择 具有 最 大 增 量 的 问题 ,并 且 据 此 问题 把 结 点 划分 成 两 部 分 。 当 所 有 问题 的 增 量 虱 低 于 
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某 个 国 值 的 时 候 , 结 点 上 的 分 裂 过 程 将 停止 。 最 终 ,同一 个 叶子 结 点 中 的 状态 将 被 共享 拥 绑 
到 一 起 。 可 以 看 出 , 国 值 的 大 小 会 影响 最 终 共 享 的 结案 。 国 值 越 大 ,最 终 每 个 叶子 结 点 中 的 
状态 越 多 ,共享 的 程度 就 越 高 。 这 样 最 终 模型 的 大 小 也 就 越 小 ,但 某 些 发 音 越 有 可 能 出 现 混 
消 。 而 国 值 越 小 ,最 终 叶 子 结 点 上 的 状态 也 会 越 少 ,共享 程度 就 越 低 。 所 以 最 终 模 型 也 会 变 
大 ,出 现 音 混 消 的 概率 也 会 降低 。 

3. 字典 的 组 织 

在 声学 一 语音 学 层 之 间 有 一 个 词 层 ,在 词 层 中 应 有 一 部 字典 来 规定 词 表 中 每 一 个 词 是 
用 哪些 子 词 单元 以 何 种 方式 构筑 而 成 的 。 最 简单 实用 的 方案 是 每 个 词 用 奋 干 子 词 单 元 串 接 
而 成 。 但 是 ,每 个 词 的 发 音 可 能 有 多 种 变化 方式 ,因而 串 接 也 有 相应 的 困难 。 发 音 的 变化 方 
式 有 两 个 方面 : 第 一 方面 称 为 蔡 换 , 即 词 中 的 某 个 音 子 可 能 被 用 其 他 相似 而 略 有 差异 的 子 
词 单元 所 替换 ,这 种 蔡 换 具有 一 定 的 随机 性 ; 第 二 方面 称 为 插入 和 删除 错误 , 即 词 中 有 了 时 增 
加 了 一 个 不 是 本 词 成 分 的 子 词 单元 ,有 时 又 将 本 词 成 分 中 的 某 个 子 词 删除 了 , 何 时 插入 以 及 
何 时 删除 也 是 随机 的 。 针 对 这 些 问 题 有 以 下 几 种 方案 。 第 一 种 方案 是 在 词典 中 为 每 一 个 词 
建立 多 和 套子 词 单元 串 接 规则 来 代 蔡 单一 的 规则 ,这 样 可 以 表现 同一 个 词 的 不 同 发 音 变 异 。 
这 种 方案 使 词典 容量 扩充 很 大 ,但 对 识别 效果 收获 其 微 ,因此 不 是 一 种 优选 方案 。 第 二 种 方 
案 将 子 词 单元 构成 词 的 规则 用 一 个 网 络 图 来 描述 ,其 中 包含 蔡 代 和 插入 、 删 除 等 各 种 变化 ， 
如 图 6-22 所 示 。 


> 
图 6-22 包含 替代 和 插入 、 删 除 规则 的 词 网 络 图 


图 6-22 中 每 个 大 圆圈 是 一 个 子 词 单元 ,其 中 ai 、as、a3 是 3 个 可 以 相互 蔡 换 的 子 词 单 元 ， 
当 经 过 虚线 的 路 径 时 表示 删除 b, 反 之 表示 保留 b。 这 种 可 能 随时 被 删除 或 蔡 换 的 了 于 词 单 元 
称 为 可 选择 的 。c 是 一 个 既 不 能 蔡 换 也 不 能 删除 的 子 词 单元 , 称 为 哩 制 的 。 

4. 声调 处 理 

汉语 是 有 调 语 言 , 汉 语 中 大 约 有 30% 的 词汇 同音 不 同调 ,因此 在 汉 请 的 语音 识别 和 
理解 中 ,合理 利用 声调 信息 具有 重要 的 意义 。 对 于 声调 的 处 理 有 三 种 方法 : 第 一 种 方法 
是 把 规 一 化 基 首 频率 及 其 差分 作为 参数 加 入 到 声母 和 章 母 模型 中 。 考 虑 到 语 首 中 清音 
的 基 频 不 存在 ,为 了 使 处 理 中 特征 天 量 的 维 数 相等 ,必须 对 基 频 进行 一 些 低 通 滤波 平 清 
插值 处 理 ,使 基 频 中 不 包含 零 分 量 ,或 在 声母 和 韵母 模型 的 跳 转 过 程 中 进行 特殊 处 理 , 以 
保证 在 跳 转 过 程 中 不 会 因为 特征 矢量 维 数 不 同 而 发 生 跳 转 钳 误 。 第 二 种 方法 是 建立 一 个 
独立 的 声调 HMM 模型 ,把 规 一 化 的 前 后 帧 声调 的 基 频 及 其 差分 和 能 量 作为 模型 的 识别 参 
数 。 由 于 诸 音声 调 受 前 后 发 音声 调 的 影 啊 较 大 ,因此 细 化 声调 模型 应 该 考虑 声调 前 后 的 上 
下 文 关系 。 可 以 通过 决策 树 方 法 . 聚 类 方法 ,以 及 对 基 频 变化 分 析 使 模型 个 数 减 少 20 个 左 
右 。 第 三 种 方法 是 采用 市 有 声调 的 声学 单元 。 由 于 声调 主要 体现 在 韵母 上 ,因此 可 以 按照 
声调 将 前 母 细 化 , 即 米 用 韵母 作为 声学 单元 ,从 而 回避 声调 识别 的 问题 。 表 6-4 给 出 市 调 的 
询 母 。 


SA 


表 6-4 市 调 及 不 市 调 的 音节 首尾 


类 型 声 母 
音节 首 bcych,d,fy,gygaygeygerygorh kmynypyqyrysyshyty wy xyyzyzh 
音节 尾 asal,an,ang,a0,e,el,en,eng,er,i,la,ib,1an,1iang,1lao,1le,lift,in,ing,iong,iu,0,0ng,ou, 
usuasualsuan uangs uly uNns uO VVvans ve vn 
a(l-5) ,altl-4),an(l-4),aotl-4) ,etl-5),etl-4),en(l1-4),eng(1-4) ,er(2-4) ,1(1-5),， 
带 声调 的 音节 尾 la(l1-4),ib(1-4) ,ian(1-5),iang(1-4),iao(l1-4),1e(1-4) ,1{(1-4),in(1-4),ing(1-4) ,iong 


(1-3) ,1u(1-5),0(1-5) ,0ng(1-4),ou(1-5),u(1-5), ua(l-4) ,ual(l-4), uan(1-4), uang 
(1-4) uliC1-4) ,unCl1-4) ,uu0C1-5) ,v(1-4) ,van(1-4) ,ve(l-4) ,vn(1-4) 


5. 基于 子 词 单元 的 HMM 训练 

乒 词 单元 的 HMM 一 般 采 用 从 左 到 右 的 结构 ,状态 数 固 定 为 2 一 4 个 。 关 于 子 词 单 元 
的 训练 , 粗 看 起 来 似乎 特别 困难 ,因为 没有 一 种 简单 的 方法 能 够 产生 这 样 短 ,而 又 不 是 精确 
定义 的 语音 段 。 所 笠 的 是 实际 上 并 非 如 此 ,因为 在 一 个 足够 大 的 训练 集 内 ,每 个 子 词 单元 可 
以 出 现 很 多 次 ,而 每 个 连续 语音 段 中 包含 有 很 多 个 子 词 单元 。 因 此 可 以 用 一 种 很 粗糙 的 方 
法 进行 初始 分 段 ( 如 等 长 分 段 ) ,形成 初始 模型 ,然后 采用 前 癌 - 后 问 算 法 或 分 段 K 均值 算法 
进行 多 次 迭代 ,最 终 它 会 自动 收 人 钱 于 一 个 最 佳 模型 估计 ,同时 达到 合理 的 子 词 分 段 。 下 面 简 
单 说 明 分 段 K 均值 算法 。 

首先 假定 每 一 个 训练 语句 经 过 特征 提取 , 旦 每 个 句子 对 应 的 词 是 已 知 的 ,那么 根据 字典 
或 其 他 工具 ,就 可 以 知道 每 个 句子 最 终 所 对 应 的 子 词 单元 序列 ,这 样 分 段 K 均值 算法 可 以 
描述 如 下 。 

(1) 初始 化 : 将 每 个 训练 语句 线性 分 割 成 子 词 单元 ,将 每 个 子 词 单元 线性 分 割 成 状态 ， 
即 假定 在 一 个 语句 中 , 子 词 单元 及 其 内 部 的 状态 驻 留 时 间 是 均匀 的 。 

(2) 聚 类 : 对 每 个 给 定子 词 单元 的 每 一 个 状态 ,其 在 所 有 训练 语句 段 中 特征 矢量 用 天 
均值 算法 聚 类 。 

(3) 参数 估计 : 根据 聚 类 的 结果 计算 均值 、 各 维 方差 和 混合 权 值 系数 。 

(4) 分 段 : 根据 上 一 步 得 到 的 新 的 子 词 单元 模型 ,通过 Viterbi 算法 对 所 有 训练 语句 再 
分 成 子 词 单元 和 状态 ,重新 迭代 聚 类 和 参数 估计 ,直到 收敛 。 

详细 的 训练 过 程 见 6.12 节 的 HTK 应 用 中 。 


6.6.2 统计 语言 学 模型 


1. N 元 文法 语言 学 模型 

众所周知 ,从 一 个 词 表 中 任意 选择 硅 干 词 所 构成 的 序列 不 一 定 能 构成 日 然 语 言 中 的 名 
子 , 只 有 合乎 句法 者 才能 算是 句子 。 人 在 识别 和 理解 语句 时 充分 利用 了 这 种 约束 ,在 语音 识 
别 中 可 以 利用 堵 言 模型 实现 这 种 约束 。 请 言 模 型 分 为 基于 文法 的 语言 模型 和 基于 统计 的 语 
言 模型 。 基 于 文法 的 语言 模型 是 总 结 出 请 法 规则 乃至 语义 规则 ,然后 用 这 些 规则 排除 声学 
识别 中 不 合 语 法 或 语义 规则 的 结果 。 基 于 文法 的 语言 模型 在 特定 任务 系统 中 获得 很 好 的 应 
用 ,可 以 较 大 幅度 地 提高 系统 的 识别 率 。 在 大 词汇 量 的 场 音 识 别 系统 中 ,统计 语言 模型 由 于 
可 以 克服 文法 规则 方法 难以 处 理 真 实 文 本 的 局 限 性 ,因而 获得 了 越 来 越 广泛 的 应 用 。 

统计 语言 模型 的 基本 原理 是 ,采用 大 量 的 文本 资料 ,统计 各 个 词 的 出 现 概率 及 其 相互 关 
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联 的 条 件 概 率 ,并 将 这 些 知识 与 声学 模型 匹配 相 结 合 进 行 结果 判决 ,以 减 小 由 于 声学 模型 不 
够 合理 而 产生 的 误 识 。 
设 W = zw "CD Os 则 其 概率 可 以 表示 为 
POWODSG Pl yoo ro yd) 


= Pw ) P(rws | wi Pws | Ti yo | wweos "Tye ) 


Q 
一 [| Pw | wi tw "Ti 1 ) 
t= 1] 


总 
= [| PCw; | 2) (6-158) 
然而 ,要 可 徘 地 估计 出 一 种 语言 所 有 词 在 所 有 序列 长 度 下 的 条 件 概 率 几 乎 是 不 可 能 的 事 , 因 
而 也 就 出 现 了 几 种 篆 用 的 催化 模型 。 
即 对 式 (6-158) 中 的 条 件 概率 假定 只 考虑 与 前 N 一 1 个 词 相 关 , 即 为 N 元 文法 模型 . 
[| 
Pan(W) 一 一 | | PcGaeu | TON+1 TO TU ) (6-159) 


实际 上 ,一般 的 N 元 文法 是 难以 估计 的 ,通常 系统 中 采用 的 也 只 有 二 元 文法 P(wi| 
ww-_1) 和 三 元 文法 PCvw |vw,_,tw_1)。 
在 二 元 文法 中 ,假设 词 rw 的 概率 仅仅 取决 于 其 前 面相 邻 的 词 。 为 了 使 PCw;|w;- i) 在 
i 二 1 时 有 意义 ,一 般 会 在 整个 句子 前 面 加 上 一 个 特殊 标识 二 s 字 ,这 样 可 以 假设 rw 三 过 s>。 
为 了 使 字符 串 整 体 的 概率 为 1 ,在 整个 句子 的 结尾 也 需要 加 上 特殊 标识 二 /ss 二。 例如 ,计算 
P(Mary loves that person), 则 
P(Mary loves that person) 
=P(Mary | 一 s>)P(oves | Mary)P(that | loves)P (person | that)P(<< /s >| person) 
计算 PCwi |wi-1);, 即 词 wi 在 词 wi-1 之 后 发 生 的 概率 ,可 以 简化 为 计算 (wi-1wi) 在 博 
料 库 中 发 生 的 次 数 除 以 w;-1 发 生 的 次 数 , 即 相对 频率 计数 得 到 。 扩 充 到 NN 元 文法 统计 语言 


C (wi_N+1 TUN+2” Ti ) 


(6-160) 


Plw; | wi_nti Wi_N42"""TWi_1) 一 , 
Cc CUNT CO N42 """ Ti] ) 


式 中 ,c(W) 是 指 词 串 W 在 训练 数据 中 出 现 的 次 数 。 

然而 ,即使 在 N 比较 小 的 情况 下 ,要 统计 的 条 件 概率 也 是 一 个 非常 庞大 的 数字 ,因而 营 
功 会 出 现 c(W) 二 0 或 接近 于 稚 的 情况 ,这 样 得 到 的 结果 将 不 可 徘 , 解 决 这 种 训练 数据 稀 玖 
的 方法 是 采用 一 些 平滑 技术 。 

2. 基于 类 的 N 元 文法 语言 学 模型 

对 一 些 具 有 同样 语义 的 字 词 ,可 以 归并 到 一 类 ,这 是 在 语言 学 模型 中 处 理 数 据 稀疏 
的 一 个 有 效 方法 。 基 于 类 的 声言 学 模型 ,在 同等 的 性 能 上 需要 更 少 的 训练 数据 以 及 内 存 
=p 

对 一 个 给 定 的 词 wwi ,其 与 类 别 c; 之 间 是 一 种 多 对 多 的 映射 关系 , 即 词 rw 可 能 属于 多 个 
类 别 ,同时 一 个 类 别 c; 也 可 能 包含 多 个 词 。 为 简化 起 见 , 这 里 假设 一 个 词 ww 只 能 唯一 地 映 
射 到 一 个 类 别 c;,, 则 基于 类 的 N 元 文法 模型 可 以 通过 其 前 一 1 个 类 得 到 

Pa | Ws wi | Ps | ei) (6-161) 


式 中 s P(r ] Ee 站 表 示 舍利 C: 的 情况 下 产生 Tei 的 概率 ，; Pe; | 1 "Ci—l ) 表 示 在 已 知 前 面 
类 别 的 前 提 下 ,产生 类 别 c; 的 概率 。 
基于 类 的 三 元 文法 模型 可 以 表示 为 


P(W) = [|P Cw [ee | (6-162) 
如 打 类 别 之 间 没 有 重奏 , 即 一 个 词 只 属于 一 个 类 别 , 则 上 式 可 以 表示 为 
E 本 3 一 [||P Cw 1 | i (6-163) 


这 样 在 定义 了 词 一 类 别 的 映射 函数 后 ,可 以 很 容易 通过 上 式 计 算出 基于 类 的 N 元 文法 模 
型 。 可 以 通过 统计 的 方法 得 到 每 个 词 出 现 的 频率 C(w;) 和 每 个 类 别 出 现 的 频率 Clc;) ,同样 
对 属于 一 个 类 别 的 词 紧 跟着 属于 另 一 个 类 别 的 其 他 词 的 频率 C(c;_ic;) 也 可 以 计算 出 来 , 则 
在 二 元 文法 中 ,PCwi|w;_1) 可 以 近似 如 下 : 

| : | | z CC (es re) 

Pl | so Fe Pm | cso Plo | i YP | i a) = CS 
对 于 一 般 的 如 大 词 表 听写 机 应 用 ,基于 类 的 N 元 文法 模型 对 识别 性 能 的 提高 并 不 明显 。 这 
种 模型 一 般 作 为 平滑 策略 中 的 一 个 回 退 (backoff) 模型。 对 于 限定 领域 的 语音 识别 应 用 而 
言 , 当 类 别 定义 的 合理 , 且 可 以 真正 涵盖 语义 信 息 时 ,基于 类 的 NN 元 文法 模型 可 以 对 关键 词 
检 出 和 语音 理解 等 任务 有 切实 的 帮助 。 

对 于 词 如 何 聚 类 ,可 以 有 多 种 方法 。 和 总 体 而 言 , 可 以 划分 为 基于 规则 聚 类 和 数据 驱动 聚 
类 两 种 方法 。 

1) 规则 聚 类 

这 类 方法 多 从 句法 一 语义 的 角度 考虑 聚 类 。 如 果 有 限定 领域 的 知识 , 则 在 聚 类 中 可 以 
有 效 利 用 这 部 分 信息 将 具有 相同 语义 信息 的 词 聚 为 一 类 。 例 如 要 建立 一 个 关于 航空 旅行 的 
对 话 系 统 , 则 各 种 不 同 的 航空 公司 的 名 称 , 可 以 聚 为 一 个 类 别 。 对 于 不 同 机 场 的 名 称 , 同 样 
可 以 聚 为 一 个 类 别 。 这 样 当 训练 数据 较 少 时 ,可 以 有 效 统 计 各 个 类 别 之 间 的 关系 。 并 且 妆 
有 新 的 机 场 名 称 加 入 时 ,类 别 之 间 的 关系 只 需 做 细微 调整 。 

2) 数据 驱动 聚 类 

对 于 一 般 的 识别 系统 ,很 难 像 上 述 基 于 规则 的 方法 将 一 些 具 有 同样 功能 的 词 划分 到 
同一 个 类 中 。 这 时 可 以 采用 数据 驱动 聚 类 方法 ,在 这 种 方法 中 ,一 个 重要 的 概念 是 词 的 
相似 度 ,基于 该 相似 度 来 定义 目标 清 数 。 然 后 通过 优化 该 目标 了 浮 数 将 不 同 的 词 聚 到 不 同 
的 类 别 中 ,这 里 可 以 杀 用 最 大 似 然 估计 准则 保证 最 后 得 到 的 聚 类 结果 的 困惑 度 (perplexity) 
最 小 。 


6.6.3 ”统计 语言 学 模型 平滑 技术 


日 统计 语言 模型 在 语言 处 理 方面 应 用 以 来 , 平 涓 技术 就 得 到 了 相应 发 展 。 其 基本 思想 
是 将 模型 中 可 见 事 件 的 概率 值 进行 折扣 (discounting) ,并 将 该 折扣 值 重新 分 布 给 不 可 见 事 
件 的 元 素 序列 ,所 以 它 可 以 保证 模型 中 任何 概率 均 不 为 零 , 且 可 以 使 模型 参数 概率 分 布 趋向 
更 加 均匀 。 因 此 ,平滑 方法 由 概率 值 折扣 的 策略 和 折扣 值 的 分 布 方法 所 决定 。 

1. 加 法 平滑 技术 

这 类 方法 是 采取 对 所 有 (包括 在 模型 出 现 和 未 出 现 的 ) 事 件 的 频率 值 加 上 一 个 固定 的 值 


(6-164) 


208 者 上 语 首 信号 处 理 ( 第 3 版 ) 


来 避免 零 概率 事件 ,主要 有 两 种 方法 。 
一 种 方法 是 最 简单 的 add-6 平滑 , 它 在 N 元 文法 模型 中 每 个 事件 的 出 现 次 数 加 上 一 个 
数 $, 即 
cfzP_N+ li) 十 人 
之 c(CoiwH) 二 STTV 


式 中 ,0 和 二 6 委 1,|V| 表 示 . -元 模型 中 元 素 的 个 数 ， - 般 情 况 下 6 二 1, 所 以 该 方法 又 称 为 “加 1 
法 ”。 这 种 平滑 技术 原理 简单 \, 吻 实 现 , 但 一 般 来 说 性 能 很 差 。 

男 一 种 是 one-count 平滑 技 术 。 这 时 公式 (6-165) 变 成 
cor_ nt) | aP we lve | vot-wis) 


Dwi wr) ta 


TR , 
l 


(6-165) 


Pua (wi | wi-N+1) = 


Pore (tw | wiN+1) 一 (6-166) 
式 中 ,a 是 稼 数 。 
这 种 方法 是 依据 低 阶 模型 的 概率 ,按照 比例 增加 N 元 文法 模型 中 每 个 事件 的 出 现 
2. Good-Turing 估计 
Good-Turing 估计 对 N 元 文法 中 出 现 x 次 的 事件 ,假设 它 的 出 现 次 数 为 rx” 次, 即 


| 


"二 (7 十 1) 


式 中 ,n, 是 NN 元 文法 训练 集中 实际 出 现 r Pr N 元 文法 中 出 现 次 数 为 r 的 事 
件 的 条 件 概率 为 


(6-167) 


por (a) = i (6-168) 


式 中 ,N 为 NN 元 文法 中 所 有 NN 元 对 的 总 数 。 由 于 Good-Turing 估计 不 包含 低 iad 
阶 模型 的 插值 ,; 通 第 不 能 单独 作为 一 个 N 元 文法 的 平滑 算法 ,而 作为 其 他 平滑 算法 的 一 
计算 工具 。 

3. Katz 平滑 技术 

该 平 请 算法 是 当 一 个 N 元 对 出 现 的 次 数 c (wi_n41) 足 够 大 时 ,通过 最 大 似 然 估计 得 到 
的 Pa (wi-_n+1) 是 可 徘 的 概率 估计 。 而 当 cu w+) 不 够 大 时 ,采用 Good-Turing 估计 对 
其 进行 折扣 ,并 将 折扣 值 赋 给 未 出 现 的 N 元 对 , 且 补 偿 值 与 其 低 阶 模型 相关 。 
clwi_n+1) 一 0 时 , 按 着 低 阶 模型 PCOwi|wi-Nn+s) 比 例 来 分 配给 未 出 现 的 NN 元 对 的 概率 。 

这 样 ,如 果 词 串 出 现 了 7 次 , 则 平滑 后 其 次 数 为 d,r( 其 中 4d, 为 不 大 于 1 的 参数 )。 如 
果 词 串 没 有 出 现 , 则 分 配给 这 个 词 串 一 个 与 此 词 串 低 阶 模型 相关 的 值 ,具体 折扣 后 的 次 

a a 
tian (Ww) = | (6-169) 


a(vwi_Nt+2) C katz (wi_nt2)», ci whH) 一 0 
经 Katz 平滑 后 的 概率 值 为 
a. PUn | wt mwas czi_N) ~>0 
i ] i | (6-170) 


i je 
a (TN+t1 DP kats Co; | Ws 二 


a 


式 中 ,a(wi-h+1) 的 取 值 应 该 使 事件 分 布 的 总 数 > ,cas (zf wsi ) 保持 不 变 , 即 


Sx katz (Ti_N+1 ) Ye (Ti_N+1 ) (6- 171) 


其 值 为 
1 一 > Pew | wihn) 


l 
wt cw NT 0 


Ss > Pu ] 和 


el, 


(6-172) 


Q (WIEN ) 一 


ws cw NA 

在 d, 的 计算 中 ,数目 大 的 次 数 被 认为 是 可 徘 的 ,因而 不 需 折扣 ,只 需 对 次 数 较 小 的 进行 

折扣 计算 。 实 践 表明 , 取 参 数 &=5 是 一 个 很 好 的 选择 ,对 于 所 有 的 7 二 k, 折 扣 系 数 d, 王 1。 

对 于 rr 三 的 次 数 , 折 扣 率 从 应 用 于 全 局 的 N 元 文法 分 布 的 Good-Turing 估计 导出 。 即 从 

所 有 出 现 非 0 次 的 NN 元 文法 中 折扣 出 去 的 总 次 数 , 等 于 赋 给 出 现 0 次 的 所 有 N 元 文法 的 总 
次 数 ， 

2 (PCN) — Po (wh)) = Dn,(l—d,) i 全 (6-173) 


wr : c(wh )>0 0<r<k 


同时 要 保证 4, 得 到 的 折扣 同 Good-Turing 估计 预测 的 折扣 成 一 定 比 例 关 系 , 这 个 约束 对 应 
于 式 (6-174) ,其 中 为 常数 。 


1—d, 天 本] (6-174) 


从 式 (6-173) 和 式 (6-174) 可 获得 唯一 解 : 
PF _ (ET Lm (ro 拟 4 古 (天 十 1) ni 
171 rn 121 


EEC 


由 此 可 计算 出 每 一 个 次 数 x 平滑 后 的 值 。 显 然 ,与 线性 插值 平滑 算法 相 比 , 回 退 式 数据 平滑 
算法 的 参数 较 少 ,而 且 可 以 直接 确定 ,无 须 通 过 某 种 迭代 重信 算法 反复 训练 ,因此 人 它 的 实现 
更 为 方便 。 实 验 表 明 ,在 小 训练 集 上 的 二 元 文法 模型 上 ,Katz 平滑 具有 较 大 的 优势 。 

4. 插值 平滑 技术 

这 类 平滑 方法 耳 接 利用 模型 中 能 提供 的 所 有 信息 ,通过 归 一 化 方法 获得 平滑 后 的 概率 
值 ,此 类 平滑 技术 有 线性 插值 平滑 和 非 线 性 插值 平滑 两 种 。 

1) 线性 插值 平滑 

线性 插 但 平 消 (linear interpolation smoothing) 方 法 通 第 也 称 作 Jelinek-Mercer 平滑 。 
它 主 要 利用 低 阶 模型 对 高 阶 N 元 文法 模型 进行 线性 插值 。Jelinek 和 Mercer 在 1980 年 首 
先 提出 了 这 种 数据 平滑 算法 的 思想 ,Brown 在 1992 年 给 出 了 线性 插值 的 平滑 公式 ， 


ri (zu WIEN+1 ) 有 Py (vw; | WIN 0 A Etre CT ] YUiN42 ) 
(6-176) 
式 中 ,Xi-1 为 插值 系数 。 这 里 N 元 文法 模型 可 以 递归 地 定义 为 由 最 大 似 然 估计 原则 得 到 


的 NN 元 文法 模型 和 CN 一 1) 元 文法 模型 的 线性 插值 。 当 递 归 到 一 元 文法 时 ,可 以 令 一 元 文 
法 模型 为 最 大 似 然 估 计 模 型 ,或 令 其 为 一 个 均匀 分 布 模型 P(w) 二 |V| i!， 
对 于 插值 系数 4,i-1 的 估计 ,一 般 可 以 采用 Baum-Welch 算法 估计 出 来 。 其 基本 思 


Wi—N+l 
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有 


想 : 使 用 经 过 数据 平 请 的 模型 概率 参 效 ,计算 一 个 测试 集 工 的 对 数 似 然 概 率 logP(T)。 当 
logP(TD) 为 极 大 值 时 ,对 应 的 Au ， 为 最 优 但 。 因 此 可 以 求解 logP(T) 对 应 于 每 个 Mu- 


的 偏 导数 , 令 祁 98 一 一 0, 通 过 对 该 方程 求解 ,可 以 得 到 X=,, 的 迭代 计算 公式 ， 


Wi—N+l 


wi i 


不 一: -EC ~ i ) 


一 向 十 1 二 本 


X 一 "1 Pur (wi | ee (6_177) 
Ai , Pu (Ww; ee Ns | Toi Na 


式 中 ,ea ) 是 词 串 ww 在 测试 集中 出 现 的 次 数 。 庆 ;- ， 是 本 次 迄 代 新 的 插值 系数 ， 

另 一 种 方法 是 保留 一 部 分 数据 来 计算 Xi-1 ，,Jelinek-Mercer 描述 了 用 数据 的 不 同 部 
分 循环 来 分 别 计算 Pu 和 hwi-:，。 但 无 论 哪 种 方法 ,部 不 能 彻底 解决 数据 量 不 足 对 估计 
1.-， 带 来 的 影响 , 桶 式 分 类 策略 可 以 在 一 定 程度 上 缓解 数据 量 不 足 带 来 的 问题 。 把 
Aw-!， 分 在 不 同 的 桶 内 ,在 同一 个 桶 的 4- ， 具有 相同 的 值 ,并 且 在 同一 个 桶 内 使 用 
Good-Turing 估计 。 在 将 4。 :-1 分 在 哪 -个 桶 内 的 问题 上 ,Bahl 建议 应 根据 在 高 阶 模型 下 
计数 的 值 来 分 ， 因为 在 高 阶 模型 下 有 更 高 的 值 ， 表明 最 大 似 然 信 计 就 越 精 确 ,Awi-1 ， 的 值 驶 
应 该 越 大 。 

由 于 此 类 平 消 技术 的 系数 计算 极其 复 灯 ,因此 也 就 衍生 出 很 多 改进 的 平滑 方法 ,如 
Witten-Bell 平滑 和 average-count 平滑 。 

Witten-Bell 平滑 算法 是 Jelinek-Mercer 线性 插值 平滑 算法 的 一 个 特例 , 它 与 一 般 的 线 
性 插值 平滑 算法 唯一 的 不 同 之 处 在 于 捅 值 系数 Mu， 的 设置 方式 。 一 般 的 线性 插值 平 请 


算法 采用 Baum-Welch 重 佑 算法 训练 Mu -1 ， ,而 Wi Bell 平滑 算法 及 用 如 下 的 公式 计算 
A : 


一 Ni. (Tw;— 党 -村 Be ) 


WW (6-178) 
;一 N 十 1 Ne (ze 一 De es ) 十 2 (vw -N+1 ) 


式 中 ,“。” 是 位 置 符 号 ,代表 在 训练 语料库 中 出 现在 记 串 wi-n+1 之 后 的 任意 一 个 词 。 

Ni+ () 表 示 括 号 里 的 处 于 位 置 “。”, 且 出 现 次 数 大 于 零 的 词 的 个 数 。 则 Ni+ (wi-n+t1*) 的 
定义 如 下 : 

| (6-179) 

average-count 平滑 也 是 Jelinek-Mercer 平滑 的 特例 。Bahl 建议 根据 c (wi-n+41) 把 

J 进行 桶 式 分 类 ,而 Stanley F. chen 发 现 , 根 据 每 个 出 现 次 数 不 为 0 的 NN 元 组 的 次 数 


i (Ct 


直观 上 ,估计 PGo |wi-ji+) 的 训练 数据 越 逢 社 ， wi ， 应 该 越 大 。 当 分 布 中 出 现 的 次 
数 总 和 越 大 ,数据 越 黎 踊 ,这 种 标准 忽略 了 词 之 间 次 数 的 分 配 。 例 如 ,在 10 个 词 中 出 现 10 次 
的 分 布 比 一 个 词 出 现 10 次 更 稀 踊 。 每 个 词 出 现 次 数 的 平均 值 似乎 更 能 表达 数据 稀 踊 的 概念 。 
对 N 元 文法 中 出 现 次 数 为 0 的 NN 元 组 ,Pm (Cw;|wi-w+41) 可 以 由 下 式 得 到 
Pat | = (1 ee De | (6-180) 


HH] 
Ol 一 
一 条 十 1 NM 


桶 式 分 类 策略 的 上 日 的 是 把 具有 相似 4 值 的 NN 元 组 归 为 一 桶 。 因 此 ,对 N 元 组 wi- 
划分 时 ,应 该 根据 下 面 原则 


1—a 


i | ED (6-181) 
N Dc 


bp (twiN+1 ) 
这 与 用 来 进行 分 桶 的 值 一 一 一 -一 一 一 一 的 倒数 很 相似 。 实 验 表 明 ,此 方法 在 三 元 文 


| i | 
法 上 性 能 最 优 , 在 二 元 文法 上 性 能 一 般 。 

2) 非 线 性 插值 平滑 

非 线 性 插值 平滑 (nonlinear interpolation smoothing) 又 称 Kneser-Ney 平滑 (简称 K-N 平 
滑 )。 其 基本 思想 . 当 使 用 低 阶 模型 对 高 阶 模型 进行 插值 平滑 时 , 低 阶 模型 在 混合 模型 中 的 影 
啊 较 大 ,因此 必须 进行 特殊 处 理 。 

Kneser 和 Ney 改进 了 低 阶 分 布 对 高 阶 模型 的 影 啊 因子 。 例 如 ,假设 wsrws 是 一 个 比较 
功用 的 词组 ,这 样 ws 出 现 的 概率 就 不 会 太 少 ; 但 几乎 所 有 的 ws 在 训练 请 料 中 都 出 现在 mw。 
的 后 面 ,从 耳 观 上 说 ,wi 在 一 元 文法 中 不 应 该 有 比较 大 的 概率 。 所 以 ,一 元 文法 的 概率 不 应 
该 完全 根据 单词 出 现 的 次 数 按 比 例 分 配 概率 ,而 应 该 根据 单词 出 现在 多 少 个 不 同 的 词 的 后 
面 来 分 配 概率 。 

为 用 述 方便 ,用 (X,Y) 表 示 X 后 续 连 接 Y, 且 和 定义 

| (6-182) 
式 中 ,Ni 表示 单元 至 少 出 现 1 个, 而。 表示 所 有 可 能 的 情况 ,因此 上 式 表 示 wi-n+;: 在 训练 
语 料 中 跟随 在 多 少 个 不 同 的 单词 之 后 出 现 。 
定义 


N11 ( i -es ) 一 ee » TO ) 一 pe ( 7 (6-183) 


则 K-N 平滑 的 低 阶 概率 采用 
Ni ( sd (6-184) 


n i Es ) 
pn (Ti | WITN+2 WO 

且 整 个 模型 概率 采用 

EO ) 本 D 


本， EC 


TE, 
下 


式 中 ,也 是 一 个 绝对 折扣 次 数 ,yau -+，) 用 于 保证 概率 总 和 为 1。 
Stanley F. Chen 对 K-N 平 请 又 作 了 一 定 的 改进 ,对 出 现 次 数 较 少 的 这 些 词 进 行 分 类 处 
理 , 即 针对 出 现 次 数 为 1.2、3 的 单元 用 几 个 绝对 折扣 值 Di .D; .D; 代 震 单 个 折扣 值 D: 


ee PR ji (zu Ti N+ ) (06-185) 


ee 
Ph (vw; ] Zi 一 NI) 二 
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ee 人 
和 一 一 
| 
(6-186) 
D, 一 1 一 37 二 
Ns 
ID; =1—4Y 
Ns 
式 中 ,ni 就 是 在 模型 中 出 现 了 一 次 的 六 元 词 对 组 合 的 个 数 ; ns 是 在 模型 中 出 现 了 二 次 的 NN 


元 对 的 个 数 。 

实际 上 ,当前 平滑 算法 的 主流 形式 都 是 高 阶 和 低 阶 相 结 合 的 形式 ,如 Katz 方 法 ,在 NN 阶 
的 对 应 单元 为 0 时 ,试图 回 退 到 N 一 1 阶 , 依 徘 N 一 1 阶 单元 尽 可 能 佑 计 N 阶 单元 的 概率 。 

从 文献 的 评价 结果 来 看 ,目前 性 能 最 好 的 平滑 算法 当 属 Katz 和 K-N 方法 。K-N 算法 
由 于 回 退 时 使 用 的 模型 并 非 是 低 阶 K-N 模型 本 号 , 即 考虑 的 不 是 低 阶 单元 的 次 数 ,而 是 和 
低 阶 单元 连接 的 不 同 单词 的 个 数 。 这 样 ,实际 上 额外 增加 了 模型 的 计算 和 存储 ,显然 对 模型 
压缩 不 利 。 因 此 ,考虑 模型 的 综合 性 能 ,Katz 平滑 仍然 是 最 具 竟 争 力 的 平滑 算法 。 


6.6.4 语言 学 模型 目 适 应 扩 术 


在 一 些 日 由 对 话 应 用 中 ,交谈 的 主题 会 随时 发 生变 化 ,这 时 需要 对 语言 学 模型 的 一 些 参 
数 ,如 N 元 文法 的 概率 、 词 表 的 大 小 、 词 表 内 的 词 进 行 适 当 的 调整 。 这 里 简要 介绍 几 种 语言 
学 模型 的 自 适应 方法 。 

1. 基于 缓存 的 语言 学 模型 

可 以 采用 动态 缓存 (cache) 语 言 学 模型 根据 当前 的 话题 来 调整 词 频 。 这 种 方法 的 假设 
是 : 在 文本 中 刚刚 出 现 过 的 一 些 词 在 后 边 的 句子 中 青 次 出 现 的 可 能 性 往往 较 大 ,一 般 会 大 
于 正常 N 元 文法 中 预测 的 概率 。 这 样 ,对 真正 语言 学 模型 ,可 以 通过 线性 插值 求 得 

P(w, | wi wa) =AP (Cw | NA 
十 (1 一 1)P_ (rzo; | wo;_21t0;_1) (6-187) 

由 于 缓存 的 空间 一 般 比 较 小 ,因此 基于 缓存 的 语言 学 模型 Pa 不 会 超过 三 元 文法 。 假 

设 缓存 中 保留 前 K 个 词 ,每 个 词 在 缓存 中 的 概率 用 其 在 缓存 中 出 现 的 相对 频率 计算 得 到 
nt | gi Dp (6-188) 
式 中 ,1 为 指示 器 函数 ,如 果 e 表示 的 情况 出 现 , 则 I 二 1, 否 则 I 二 0。 

这 种 方法 的 缺陷 是 在 缓存 中 的 词 ,无 论 和 当前 词 的 距离 远近 ,其 重要 程度 是 一 样 的 。 
Clarkson 等 人 在 1997 年 的 饶 究 表明 ,缓存 中 每 个 词 对 当前 词 的 影响 应 该 随 看 与 当前 词 距 离 
的 增 大 而 呈现 指数 级 衰减 ,因此 式 (6-188) 可 重 写 为 

Ppe CWw; | wi_2 Ti;_1) = a5 Pd (6-189) 


式 中 ,a 为 衰减 率 ,B 为 归 一 化 常数 ,其 取 值 的 原则 是 使 式 (6-189) 对 整体 词 表 的 和 为 1。 
2. 主题 自 适应 模型 
由 于 大 规模 训练 语 料 本 和 号 是 异 源 的 ,来 日 不 同 领 域 的 语 料 无 论 在 主题 方面 还 是 在 风格 


方面 ,都 存在 一 定 的 差异 。 为 减少 主题 差异 对 语言 学 模型 的 影响 ,可 以 将 语言 学 模型 划分 成 
n 个 子 模型 Mi ,… ,M, ,整个 语言 学 模型 的 概率 可 以 通过 如 下 插值 公式 计算 : 


Ps ] Ye 人 .Pi (To, | TO NEI "TO ) (6-190) 


j=1 
式 中 , 0 声 志 1, 2 一 1。4 值 可 以 通过 EM 算法 获得 。 


整体 的 过 程 可 以 分 成 以 下 几 步 完成 : 

(1) 对 训练 语 料 按照 来 源 .主题 或 类 型 等 聚 类 ; 

(2) 确定 适当 的 训练 语 料 子 集 , 并 利用 这 些 语 料 建立 特定 的 语言 学 模型 ; 

(3) 确定 日 适应 语 料 的 主题 或 主题 的 集合 ; 

(4) 利用 各 子 集 训练 的 特定 语言 学 模型 和 上 面 的 线性 插值 公式 ,获得 整个 语言 学 模型 。 

在 确定 自 适应 语 料 的 主题 或 主题 集合 时 ,可 以 借助 于 信息 检索 中 的 方法 。 利 用 词 频 和 
反 文 档 频 率 (term frequency and inverse document frequency,，TFIDF) 来 计算 文档 之 加 以 及 
文档 和 主题 之 间 的 相似 度 。 


6.7 ”大 词 表 连 续 语 音 识别 中 的 解码 技术 


对 大 词汇 量 连续 语音 识别 ,最终 目的 是 从 各 种 可 能 的 子 词 序列 形成 的 一 个 网 络 中 , 找 出 
-个 或 多 个 最 优 的 子 词 序列 。 这 在 本 质 上 属于 搜索 算法 或 解码 算法 的 范畴 。 

根据 语音 识别 系统 对 不 同 先 验 知识 源 的 利用 方式 ,可 以 把 搜索 条 略 分 为 一 裔 搜索 和 多 

一 过 搜索 宵 略 倾 问 于 将 所 有 可 能 的 知识 源 全 部 集成 在 一 起 ,只 对 输入 的 坪 音 序列 进行 
-次 处 理 ,完成 所 有 的 搜索 步 镶 ,并 和 直接 给 出 最 优 的 搜索 结果 。 由 于 使 用 的 知识 源 越 多 , 搜 
系 的 计算 代价 就 越 大 ,因此 ,一 这 搜 索 比较 适合 构建 实时 系统 ,但 很 难 应 用 到 比较 复杂 的 声 

多 所 搜索 的 基本 思想 是 ,将 各 种 知识 源 , 包 括 声学 模型 和 语言 学 模型 ,由 人 简单 到 复 灯 巡 
渐 加 和 到 搜索 过 程 中 ,每 一 过 搜索 只 使 用 一 部 分 知识 ,并 为 随后 的 搜索 构建 销 小 的 搜索 于 空 
间 ,使 后 面 的 搜索 过 程 在 前 一 级 产生 的 子 空间 上 进行 。 多 遇 搜 索 宁 略 的 优 努 在 于 ,可 以 方便 
地 导入 各 种 复杂 的 声学 模型 和 语言 学 模型 ,以 及 采用 多 种 识别 算法 和 后 期 处 理 算法 ,但 多 遍 
搜索 中 宕 要 精确 地 控制 前 一 级 为 下 一 级 提供 的 搜索 于 空间 ,防止 正确 的 结 末 在 前 一 阶段 被 
错误 删除 。 此 外 ,多 过 搜索 必须 要 等 竺 博 音 输入 完成 后 才能 开始 ,不 适应 实时 系统 的 要 求 。 

根据 搜索 过 程 中 路 径 的 扩展 方式 ,可 以 分 为 基于 词 和 基于 时 间 的 两 种 方法 。 在 基于 词 
的 搜索 算法 中 ,搜索 路 径 的 扩展 取决 于 前 面 已 经 识别 出 的 词 ,而 且 词 边界 已 经 在 前 面 的 搜索 
过 程 中 确定 了 。 在 基于 时 间 的 搜索 算法 中 ,搜索 路 径 的 扩展 取决 于 前 一 个 词 结束 的 时 间 , 即 
词 边 寞 在 搜索 回 蛮 过 程 中 才能 确定 。 

根据 搜索 时 考虑 的 语 首 信号 汇 围 ,可 以 将 搜索 拭 法 分 为 时 间 同 步 和 时 间 异 步 两 种 策略 。 
时 间 同 步 策 上 略 按 照 从 左 到 右 的 时 间 拓 扑 结 构 进 行 搜 索 路 径 概 人 训 得 分 的 更 新 ; 时 间 异 步 的 方 
法 则 优先 处 理 得 分 较 融 的 搜索 路 径 , 完 全 打 乱 了 时 间 的 次 序 。 一 般 Viterbi 算法 需要 采用 时 
间 同 步 的 方式 实现 ,A* 算法 则 需要 采用 时 间 异 步 的 方式 实现 。 
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6.7.1 图 的 基本 搜索 算法 


图 的 搜索 就 是 一 种 在 图 中 寻找 路 径 的 方法 ,一 般 从 图 的 初始 结 点 开始 ,到 目标 结 点 结 
束 。 对 其 一 般 的 搜索 过 程 ,N.J. Nilsson 提出 了 一 个 著名 的 图 的 搜索 过 程 , 它 是 一 个 表达 能 
力 很 强 的 搜索 框架 ,可 以 喜 括 和 并 见 的 座 度 优先 搜索 和 广度 优先 搜索 。 在 这 个 过 程 中 需要 用 
到 OPEN 表 和 CLOSE 表 。 其 中 OPEN 表 是 一 个 “有 进 有 出 ”的 动态 数据 结构 ,用 于 存放 刚 
生成 的 结 点 ,它们 将 作为 以 后 待考 察 的 对 象 。 结 点 进入 OPEN 表 的 排列 顺序 (也 是 出 表 的 
顺序 ) 由 搜索 策略 决定 。CLOSE 表 是 一 个 “有 进 无 出 ?的 动态 数据 结构 ,用 于 存放 将 要 扩展 
或 已 经 扩展 的 结 点 ,这 些 结 点 记录 着 求解 中 的 信息 。 对 CLOSE 表 , 当 前 结 点 进入 到 它 的 最 
后 。 图 6-23 给 出 了 OPEN 表 和 CLOSE 表 的 结构 。 


CLOSE 表 


| | | 


图 6-23 ” OPEN 表 和 CLOSE 表 的 结构 
图 的 搜索 算法 如 图 6-24 所 示 。 


(1) 初始 化 : 将 初始 结 点 S 放 作 到 OPEN 列表 中 ,并 将 CLOSE 列表 初始 化 为 空 列表 。 
(2) 如 果 OPEN 列表 为 空 ,失败 ,并 退出 。 
(3) 将 OPEN 列表 中 第 一 个 结 点 移出 ,加 人 到 CLOSE 列表 后 面 , 标 记 此 结 点 为 结 点 N( 在 
CLOSE 表 的 编号 栏 标记 ) 。 
(4) 如 果 结 点 N 是 目标 结 点 , 则 成 功 退 出 ,并 通过 回 漳 找 到 从 N 到 S 的 指针 序列 。 
(5) 通过 对 结 点 N 扩展 操作 ,生成 不 是 N 的 祖先 的 那些 后 继 结 点 集合 M。 
(6) 对 于 YvEiM, 执 行 
(6a) (可 选 ) 如 果 vE OPEN, 并 且 新 路 径 的 累积 距离 小 于 OPEN 列表 中 的 任意 一 个 , 则 将 


结 点 v 的 回 湖 指 针 改 为 N ,并 调整 v 的 累积 距离 , 转 到 第 7 步 。 
(6b) 〈 可 选 ) 如 果 vE CLOSE, 并 且 新 路 径 的 累积 距离 小 于 CLOSE 列表 中 以 wv 为 结束 点 
的 局 部 路 径 , 则 将 结 点 wv 的 回溯 指针 改 为 N ,并 调整 包含 的 所 有 路 径 的 累积 距离 ， 
转 到 第 7 步 。 
(6c) 产生 一 个 指针 指向 结 点 N, 并 将 其 放 人 OPEN 列表 。 
(7) 对 OPEN 列表 中 的 所 有 结 点 按照 一 定 原则 排序 ,或 者 根据 代价 值 进行 排序 ， 
(8) 回 到 第 (2) 步 。 


图 6-24 图 的 基本 搜索 算法 


对 于 深度 优先 搜索 ,假定 初始 状态 是 图 中 所 有 顶点 未 曾 被 访问 过 , 则 该 搜索 是 从 图 中 某 
个 顶点 vv 开始 出 发 ,访问 此 顶点 ,然后 依次 从 w 的 未 被 访问 的 邻接 点 出 发 ,深度 优先 遍历 图 ， 
直到 图 中 所 有 和 ww 有 路 径 相通 的 顶点 都 被 访问 到 。 知 此 时 图 中 尚 有 顶点 未 被 访问 , 则 选择 
图 中 一 个 未 被 访问 的 顶点 作为 起 始点 ,重复 上 述 过 程 ,直到 图 中 所 有 顶点 都 被 访问 到 为 止 ， 
即 在 图 6-24 中 第 7 步 将 OPEN 列表 按照 深度 降序 原则 排序 。 

对 于 广度 优先 搜索 ,假设 从 图 中 顶点 vv 开始 出 发 ,在 访问 vv 之 后 依次 访问 w 的 各 个 未 曾 
访问 过 的 邻接 点 ,然后 分 别 从 这 些 邻 接点 出 发 访问 它们 的 邻接 点 ,并 使 * 先 被 访问 的 顶点 邻 
接点 ” 先 于 “后 被 访问 的 顶点 邻接 点 ”被 访问 ,直至 图 中 所 有 已 被 访问 过 的 顶点 的 邻接 点 都 被 
访问 到 为 止 。 即 在 图 6-24 中 第 7 步 将 OPEN 列表 按照 深度 升序 原则 排序 。 


在 图 的 基本 搜索 算法 的 第 7 步 中 ,对 OPEN 列表 的 不 同 排序 规则 是 深度 搜索 与 广度 搜 
索 的 最 大 区 别 。 这 两 种 搜索 算法 都 是 在 一 个 给 定 的 状态 空间 中 穷 举 。 因 此 ,它们 的 缺点 在 
于 , 当 状 态 空间 十 分 大 , 且 不 预测 的 情况 下 搜索 效率 很 低 。 这 时 可 以 加 入 启发 式 搜索 。 

局 发 式 搜索 就 是 在 状态 空间 中 搜索 时 ,对 每 一 个 搜索 的 位 置 进行 评估 ,通过 设计 估价 郴 
数 来 控制 搜索 方向 。 这 样 可 以 省 略 大 量 无 谓 的 搜索 路 径 , 提 高 了 了 效率。 估价 函数 的 任务 就 
是 估计 OPEN 表 中 各 结 点 的 重要 程度 ,决定 它们 在 OPEN 表 中 的 次 序 ,使 得 搜索 沿 者 那些 
被 认为 是 最 有 希望 的 区 域 扩 展 ，。 

一 般 而 言 , 估 价 函 数 综合 考虑 两 个 方面 的 因素 一 一 已 经 付出 的 代价 及 将 要 付出 的 代价 ， 

- 般 形 式 如 下 : 
FON) = EONS TECN) (6-191) 
式 中 ,了 f(N) 是 结 点 NN 的 佑 价 图 数 ,gCN) 是 在 搜索 空间 中 从 初始 绪 点 到 N 结 点 的 实际 代价 ， 
h(N) 是 从 NN 到 目标 结 点 最 佳 路 径 的 估计 代价 。 这 里 主要 是 h(N) 体 现 了 搜索 的 局 发 信息 ， 
因为 g(N) 是 已 知 的 。 如 果 说 详细 点 ,g (N) 代 表 了 搜索 的 广度 的 优先 趋势 。 但 是 当 
h(N) 守 g(N) 时 ,可 以 省 略 g(N) ,而 提高 效率 。 

对 基本 图 搜索 算法 中 的 第 7 步 ,启发 式 搜 索 就 是 根据 其 启发 值 来 进行 排序 。 具 有 最 小 
代价 的 结 点 最 先 被 搜索 。 在 一 些 启发 策略 中 ,对 一 些 没 有 和 希望 的 局 部 路 径 可 以 依据 一 定 的 
原则 进行 剪 枝 。 这 里 估价 函数 FCN) 的 选取 原则 对 最 后 的 结果 影响 很 大 。 

第 见 的 启发 式 搜索 算法 有 两 种 ,一 个 是 A* 搜索 ,也 称 为 Best-First 搜索 ; 另 一 个 是 
Beam Search。 这 两 种 方法 广泛 用 于 语 首 识别 系统 中 ，。 

1. A* 搜索 

- 旦 有 了 一 个 合理 的 启发 函数 ,就 可 以 估计 OPEN 列表 中 的 所 有 结 点 的 代价 ,并 且 由 
于 通过 最 小 代价 的 结 点 最 有 可 能 找到 最 佳 路 径 , 因 此 对 于 这 样 的 结 点 可 以 优先 搜索 。 对 
图 6-24 算法 的 第 7 步 ,再 要 对 OPEN 列表 中 结 点 排 友 ,A“ 搜索 的 排序 原则 是 将 最 好 的 绪 
点 , 即 最 小 代价 的 绪 点 排 在 前 面 等 待 搜索 ,具体 算法 如 网 6-25 所 示 。 


(1) 初始 化 : 将 S 放 人 到 OPEN 列表 中 ,并 将 CLOSE 列表 初始 化 为 空 列表 。 
(2) 如 果 OPEN 列表 为 空 ,失败 ,并 退出 。 
(3) 将 OPEN 列表 中 第 一 个 结 点 N 移出 ,加 入 到 CLOSE 列表 。 
(4) 如 果 结 点 N 是 目标 结 点 , 则 成 功 退 出 ,并 通过 回溯 找到 从 N 到 S 的 指针 序列 。 
(5) 通过 对 结 点 N 扩展 操作 ,生成 不 包含 结 点 N 的 祖先 的 后 继 集合 M 。 
(6) 对 于 VYvEM, 执 行 
(6a) (可 选 ) 如 果 wvE OPEN, 并 且 新 路 径 的 累积 距离 小 于 OPEN 列表 中 的 任意 一 个 ， 
则 将 结 点 地 的 回调 指 针 改 为 N ,并 调整 v 的 累积 距离 ; 对 结 点 vv 给 出 其 代价 


f(v) , 转 到 第 (7) 步 。 

(6b) (可 选 ) 如 果 vE CLOSE, 并 且 新 路 径 的 累积 距离 小 于 CLOSE 列表 中 以 wv 为 结 
束 点 的 局 部 路 径 , 则 将 结 点 wv 的 回 漳 指 针 改 为 N ,并 调整 包含 v 的 所 有 路 径 的 
累积 距离 和 代价 f , 转 到 第 (7) 步 ，。 

(6c) 产生 一 个 指针 指向 结 点 人 ,并 将 其 放 人 OPEN 列表 。 

(7) 对 OPEN 列表 中 的 所 有 结 点 按照 代价 值 进行 递增 排序 。 
(8) 回 到 第 (2) 步 。 


图 6-25 A* 搜索 算法 
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2.， Beam 搜索 
Beam 搜索 是 一 个 广度 优先 并 综合 次 度 考 虑 的 算法 。 与 传统 的 广度 优先 算法 相 比 , 它 
在 每 个 层次 上 只 是 对 那些 可 能 有 后 继 的 结 点 进行 扩展 。 


一 般 来 说 ,Beam 搜索 在 每 个 阶段 (层次 ) 只 保留 w 个 最 好 的 路 径 , 其 余 路 径 袜 忽略,w 

- 般 指 Beam 广度 。 如 果 将 Beam 广度 和 平均 分 枝 因 子 5 相 结 合 , 则 对 任意 深度 , 它 的 搜索 

结 点 数 不 超过 wX5, 而 不 会 像 广度 优先 那样 让 搜索 结 点 呈现 指数 扩展 。Beam 搜索 算法 可 
以 在 广度 优先 搜索 算法 上 进行 稍微 改进 ,如 图 6-26 所 示 。 


(1) 初始 化 : 将 S 放 人 到 OPEN 列表 中 ,并 将 CLOSE 列表 初始 化 为 空 列表 ， 
(2) 如 果 OPEN 列表 为 空 ,失败 ,并 退出 。 
(3) 对 于 YNEOPEN 
(3a) 从 OPEN 列表 中 弹出 结 点 N, 将 其 从 OPEN 列表 中 删除 ,并 将 其 放 人 CLOSE 
列表 。 
(3b) 如 果 N 结 点 是 目标 结 点 ,成功 退出 ,并 回潮 从 NN 到 S 结 点 的 路 径 。 


(3c) 通过 后 继 操作 扩展 结 点 ,生成 不 包括 结 点 N 的 祖先 的 后 继 结 点 集合 M 。 
(3d) YuvE M, 产 生 一 个 指向 结 点 N 的 指针 ,并 将 其 放 人 Beam 候选 列表 中 。 
(4) 对 Beam 候选 列表 依照 启发 函数 FCN) 排 序 确保 最 好 的 冯 个 结 点 可 以 压 人 到 
OPEN 列表 中 ,并 将 Beam 候选 列表 中 其 余 结 点 剪 枝 掉 。 
(5) 回 到 第 (2) 步 。 


图 6-26 ”Beam 搜索 算法 


在 图 6-26 中 的 第 (4) 步 中 显然 需要 排序 ,如 果 wxX5 的 效 值 很 大 , 则 这 部 分 青 要 耗费 很 
多 时 间 。 在 实际 应 用 中 ,经 常 采 用 一 种 灵活 的 方式 ,将 与 同一 层次 的 最 优 结 点 的 局 发 痕 数 
FFCN) 相 差 在 一 定 国 值 范围 内 的 绪 点 均 进 行 扩 展 。 这 样 就 只 需要 寻找 最 优 绪 点 和 确定 国 值 
即 可 。 虽 然 这 样 Beam 的 尺寸 不 好 控制 ,但 却 可 以 避 倪 对 Beam 候选 列表 排序 所 耗费 的 时 
加 。 实 际 上 通过 调 蔬 国 值 ,可 以 很 好 地 控制 扩展 的 绪 点 数量 ,也 便于 管理 。 


6.7.2 ”面向 语 普 识别 的 搜索 算法 


识别 网 络 可 以 理解 成 一 棵 树 , 树 的 根 结 点 与 每 个 可 能 作为 句子 开始 词 的 结 点 相连 ,每 个 
词 又 与 它 可 能 相连 的 词 相 连 。 可 以 看 出 , 若 如 此 扩展 下 去 ,网 络 结构 将 会 十 分 复杂 。 通 过 词 
典 将 每 个 词 蔡 换 成 音素 模型 ,多 种 发 音 时 列 出 不 同 的 音素 模型 ,最 后 根据 上 下 文 合并 相同 的 
音素 模型 ,形成 一 个 大 的 网 络 。 而 语音 识别 或 者 搜索 算法 ,就 是 在 这 个 网 络 中 寻找 最 有 可 能 
的 路 径 。 

搜索 空间 可 以 将 声学 模型 和 请 言 学 模型 有 效 结 合 ,图 6-27 给 出 在 一 元 文法 语言 学 模型 
下 的 语法 网 络 的 构建 。 

对 每 个 词 的 HMM 模型 的 结束 状态 ,通过 一 个 概率 为 1 的 空 踊 连接 到 一 个 称 为 汇集 状 
态 (collector state) 的 状态 上 ,该 状态 同样 以 概率 1 连接 到 起 始 状 态 (Cstarting state) 上 。 类 
似 地 ,起 始 状 态 以 不 同 的 概率 连接 到 各 个 HMM 模型 的 第 一 个 状态 ,这 个 概率 即 为 一 元 文 
法 的 概率 PCw)。 

对 于 二 元 文法 的 语言 学 模型 ,其 包含 语言 学 模型 的 文法 构建 如 图 6-28 所 示 。 


Pw Iw1) POwilw,) 
For 
和 -LI-c 一 二 


让 


图 6-27 一 元 文法 扩展 的 搜索 空间 模型 图 6-28 ”二 元 文法 扩展 的 搜索 空间 模型 


由 于 二 元 文法 的 搜索 空间 仍然 是 在 可 控 的 范围 内 ,因此 它 能 达到 在 搜索 的 有 效 性 和 请 
言 学 模型 的 有 效 性 上 的 最 好 折 中 。 

当 词 表 大 小 V 很 大 时 ,对 二 元 文法 ,V 的 扩展 空间 难于 计算 。 并 且 很 多 的 二 元 组 合 可 
能 在 训练 场 料 中 未 出 现 ,如 果 对 于 未 出 现 的 二 元 文法 采用 Katz 方法 回 退 , 则 未 出 现 的 二 元 
组 辣子 曾 3 雪 示 为 

Plrw; | wy — (mw } Pw,) (6-192) 

式 中 ,a(wi) 为 词 rw 的 回 退 权重 。 

如 果 采 用 回 退 (backoff) 机 制 表示 未 出 现 的 二 元 组 合 , 二 元 文法 的 扩展 可 以 大 大 减少 。 
这 时 不 用 进行 完全 二 元 扩展 ,只 对 出 现 的 二 元 组 合 直 接 用 相应 的 二 元 文法 概率 进行 词 之 间 
转移 ; 而 对 于 回 退 的 二 元 组 合 , 词 wi 的 最 后 一 个 状态 和 一 个 中 心 的 回 退 结 点 相连 ,这 时 的 
连接 弧 的 转移 概率 是 回 退 权重 a(w;) ,然后 回 退 结 点 和 每 个 词 rw 的 起 始 结 点 以 对 应 的 一 元 
文法 的 概率 P(w;) 为 转移 概率 的 弧 连 接 , 如 图 6-29 所 示 。 


图 6-29 和 融 回 退 模 型 的 二 元 文法 扩展 的 搜索 空间 模型 


从 图 6-29 中 可 以 看 出 ,对 于 一 个 二 元 组 合 P(w; |w;) 有 两 条 路 径 , 一 条 是 直接 连接 的 
路 径 , 一 条 是 经 过 回 退 结 点 的 路 径 wa(rzo) PC )。 对 于 存在 对 应 二 无 组 合 的 词 对 ,经 过 回 退 
结 点 的 路 径 可 以 忽略 不 计 , 因 为 一 般 情 况 下 wa(rzo) PC ) 远 小 于 PCwj |w;)。 假 设 在 训练 语 
料 中 有 N 个 不 同 的 二 元 组 合 , 则 该 方法 需要 N; 十 2N 个 词 的 转移 ,而 不 是 ,因此 采用 回 
退 结 点 可 以 有 效 地 减 小 搜索 空间 。 对 于 三 元 文法 ,搜索 空间 更 为 复杂 。 

在 如 上 所 述 的 搜索 空间 中 ,假设 观察 天 量 序列 为 0 二 01 0,…or, 由 于 连续 请 流 中 没有 合 
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适 的 算法 检测 各 个 子 词 及 音节 .单词 的 准确 始末 点 ,路 径 的 搜索 应 从 每 个 可 能 成 为 可 了 于 开始 
的 子 词 单 元 开始 。 假 定 路 径 起 始点 单元 有 Q 个 , 即 1 时 有 Q 个 起 始 路 径 , 则 在 观察 矢量 
与 模型 进行 匹配 时 , 随 着 上 的 增加 ,考虑 的 路 径 应 当 包 括 当 前 模型 的 最 小 帧 数 和 最 大 帧 数 间 
的 每 一 时 刻 , 即 要 保持 该 条 路 径 往 下 匹配 ,同时 该 路 径 可 能 向 各 种 可 能 的 单元 转移 。 假 定 某 
时 刻 有 N 个 可 能 转移 的 路 径 , 则 该 路 径 在 该 师 分 又 为 N 十 1 条 踏 径 。 而 每 条 足 径 (包括 分 
又 出 的 路 径 ) 都 要 如 此 考虑 ,因而 路 径 数 会 急剧 增加 ,全 搜索 几乎 是 不 可 能 的 。 因 此 和 负 采 用 
基于 一 定 裁 剪 路 径 的 算法 。 下 面 介 绍 的 Viterbi Beam 算法 、 令 牌 传 递 模型 .基于 前 后 向 搜 
索 的 N-best 算法 就 是 这 方面 典型 的 算法 。 

1.。 Viterbi Beam 搜索 算法 

标准 的 Viterbi 算法 是 在 状态 空间 中 的 全 局 搜索 ,不 存在 搜索 的 误差 ,因此 搜索 结果 是 
全 局 最 优 的 。 识 别 的 结果 也 只 与 模型 的 精确 度 有 关 , 在 孤立 词 识别 系统 中 ,得 到 了 普遍 的 应 
用 。 但 在 连续 语音 识别 系统 中 ,由 于 搜索 的 空间 比较 大 ,全 局 搜索 将 导致 性 能 的 下 降 。 而 且 
在 搜索 过 程 中 ,对 一 些 可 能 性 很 小 的 路 径 进 行 搜索 的 效率 是 很 低 的 。 为 了 解决 这 些 问题 , 需 
要 来 取 前 校 策 略 , 放 弃 可 能 性 小 的 路 径 , 只 在 可 能 性 大 的 路 入 上 进行 搜索 ,这 就 是 Viterbi 
Beam 的 基本 思想 。 

Viterbi Beam 搜索 算法 是 一 个 广度 优先 的 帧 同步 算法 , 它 在 不 丢失 全 局 最 优 解 的 条 件 
下 ,在 搜索 中 同时 解决 连续 语音 识别 中 HMM 模型 状态 序列 和 声学 观测 序列 的 非 线 性 时 间 
对 准 、 词 边界 检测 和 词 识 别 等 问题 。 由 于 Viterbi 算法 中 的 路 径 扩 展 具 有 时 间 同 步 性 ,同一 
时 刻 的 各 条 路 径 扩 展 对 应 于 完全 相同 的 观测 序列 ,因此 其 似 然 度 得 分 具有 可 比 性 。Viterbi 
Beam 搜索 算法 在 每 一 时 刻 有 将 地 剪裁 低 得 分 路 径 , 大 大 提高 了 搜索 效率 。 当 设置 一 个 比 
较 保 守 的 门限 值 时 ,基本 上 不 会 影响 识别 的 准确 率 , 因 此 ,Viterbi Beam 搜索 算法 在 连续 语 
音 识 别 中 得 到 了 广泛 的 应 用 。 

Viterbi Beam 搜索 算法 中 有 D(zt; sw; w) 和 有 h(t; ss w) 两 个 基本 参数 。 

DG s,; w): 表示 第 1 帧 到 达 词 w 的 状态 的 最 优 路 径 得 分 。 

有 h(t; si ma): 表示 第 t 帕 到 达 词 w 的 状态 s, 的 回 湖 指 针 。 

在 连续 语音 识别 中 ,每 一 帧 在 搜索 过 程 中 可 以 产生 两 种 类 型 的 跳 转 , 即 词 内 跳 转 和 词 间 


吕 : 转 。 
词 内 跳 转 满 足以 下 的 规则 ， 
Dits sis ww) = mintd(0.ss5 | ss Ww 十 也 (人 一 1 ss w)) (6-193) 
Hfsy sr wow) = H(t— ls bolfy sy ws w) (6-194) 


式 中 ,d(o,,s,|s,-1; w) 表 示 从 状态 s,-1 转 移 到 状态 s, 产生 观测 矢量 o, 的 代价 ; bwin (tt; 5,; w) 
是 D(t; ws; w) 的 最 优 前 驱 状 态 。 具 体 可 以 进一步 表示 为 
dt | sa) =— logPty | ar wi— logPe | wr w) (6-195) 
本 (6-196) 


依据 动态 规划 原理 ,这 里 只 保留 最 优 前 驱 路 径 得 分 及 历史 路 径 。 
当 转 移 发 生 在 词 间 时 ,不 产生 任何 的 观测 矢量 ,所 以 时 间 索 引 保 持 不 变 。 
D(t; ny; w) = min{log(P(w | oo) 十 DG F(v); v))} (6-197) 


HU ww WW) Wnt Hs Pow) Yun (6-198) 


式 中 ,FCv) 表 示 词 v 的 终止 状态 ; 7 表示 伪 起 始 状态 ， PCulw/) 表 示 语 言 模型 中 的 二 元 文 
法 概率 ; : :表示 增加 一 个 链接 的 操作 ,其 中 


vnin 一 argminllogP(w | vv) DG(t; Flv); v)} (6-199) 
假定 搜索 宽度 为 0, 那么 在 完成 一 帧 的 扩展 后 ,从 所 有 的 路 径 中 找 出 最 优 的 那 条 路 径 得 4 
人 maxtQCt; $s VO)! (6-200) 
然后 对 所 有 路 径 进 行 鄞 校 , 删 除 不 满足 下 列 不 等 式 的 路 和 伍 : 
Es Ss Wh < Ot) Oo (6-201 ) 
按照 以 上 的 过 程 完成 所 有 帧 的 搜索 ,然后 从 开 时 刻 的 活 牙 结 点 中 选取 路 径 得 分 最 高 的 结 
点 ,并 从 其 回溯 表 开 始 回溯 , 即 可 得 到 最 优 的 搜索 路 径 。 应 注意 的 是 ,在 个 别 情况 下 ,如 草 术 


的 门限 设置 不 当 , 可 能 出 现 绝 大 多 数 的 搜索 路 径 都 被 保留 ,那么 搜索 空间 可 能 会 随 者 搜索 的 
扩展 而 产生 指数 级 增长 。 这 样 不 仅 浪 费 大 量 的 计算 ,也 需要 消耗 系统 大 量 的 存储 空间 来 记 
录 搜 索 路 径 ,此 时 的 剪 枝 将 不 能 达到 预期 的 目的 。 为 了 使 系统 的 搜索 空间 控制 在 一 定 的 范 
用 内 ,可 以 通过 减少 门限 值 的 方法 ， 

Viterbi Beam 搜索 算法 的 形式 化 描述 如 图 6-30 所 示 。 其 中 I(w) 表 示 词 w 的 起 始 状态 。 


(1) 初始 化 : 对 于 所 有 可 能 是 句子 开始 的 语法 词 的 状态 w 做 以 下 操作 
D(O0; I(w); w)=0 万 40; I(w); w) = null 
(2) 循环 : 
对 于 帧 上 王 1 到 了 循环 
对 于 所 有 活动 结 点 
在 词 内 转移 执行 公式 (6-195) 和 式 (6-196) 
mrs Ww)=minid(o,,s [ss ww DOG—1s ss w) } 


Hlt; 5s; w= H(t—1; Dot 53 WY; TW) 


对 于 所 有 活动 的 词 的 终止 状态 ,执行 词 间 转 移 
JIMrs ws w)=min{log(P) (wl|v)+D(t; F(v); v)} 


Hlts wi WO— oat Hts Flv )s Wn) 
if Dts ws wD Trw): Ww) 
D(t; T(rw); w= Dt; 7; ws Hlt; I(w); w= Ht; 7; w) 
前 校 : 找到 最 好 路 径 并 设置 国 值 
剪 掉 没 有 意义 的 路 径 
(3) 终止 : 在 时 刻 工 选 出 所 有 可 能 终止 状态 中 最 好 的 路 径 , 并 且 对 互 ( 7 z) 回 测 。 
6-30 帧 同步 的 Witerbi Beam 搜索 算法 


2. 令 牌 传递 模型 

Viterbi Beam 算法 在 搜索 过 程 中 不 断 寻 找 可 能 的 最 优 状 态 序列 ,记录 回 浏 信息 ,直到 最 
后 时 刻 找 出 得 分 最 高 的 那 条 路 径 作 为 识别 的 结果 。 在 这 个 过 程 中 ,要 保留 大 量 的 回溯 信息 ， 
因此 如 何 设计 一 个 好 的 结构 使 其 存储 空间 尽 可 能 小 是 面临 的 一 大 难题 。S.J. Yong 等 人 提 
出 一 个 简单 的 概念 模型 来 表示 搜索 过 程 的 信息 存储 与 提取 , 即 令 牌 传 递 模型 (token passing) 。 

令 牌 传递 模型 是 一 种 时 间 同 步 的 搜索 算法 ,其 核心 思想 是 用 令 牌 的 形式 标记 搜索 路 径 ， 
每 输入 一 个 语音 帧 ,对 处 于 激活 状态 的 所 有 令 牌 进行 处 理 , 通 过 令 牌 的 产生 .复制 及 传递 等 
操作 实现 搜索 路 径 的 扩展 ,直到 搜索 完成 。 由 于 声学 模型 采用 的 是 HMM 模型 ,因此 令 牌 
的 操作 主要 是 在 HMM 模型 的 状态 中 进行 。 考 虑 到 输出 的 识别 结果 只 是 词 条 ,所 以 不 需要 
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在 HMM 状态 级 别 上 进行 回溯 ,只 需要 在 词 级 别 上 进行 回溯 。 

令 牌 作 为 模型 中 的 最 基本 单位 ,用 符号 Token(t,s,w) 表 示 , 其 中 1 为 帧 的 时 间 序 号 ,s 
为 搜索 扩展 到 此 状态 时 的 路 径 得 分 ,vw 为 当前 对 已 输入 的 语音 帧 的 识别 结果 。 令 牌 传递 模 
型 可 以 看 成 是 Viterbi Beam 算法 的 一 种 实现 ,在 处 理 每 一 帧 时 , Viterbi Beam 在 HMM 模 
型 的 活跃 状态 上 进行 扩展 传播 ,这些 活跃 状态 都 持 有 一 张 令 牌 Token(t,s,w)。 随 着 活跃 状 
态 的 回 后 扩展 , 令 牌 在 状态 间 进 行 复 制 、 传 递 , 其 过 程 如 下 : 

(1) 在 初始 时 刻 ,对 于 每 个 状态 i, 令 其 为 活跃 结 点 ,并 创建 一 个 路 径 得 分 为 零 .前 继 词 
条 为 空 的 Token。 

(2) 对 每 个 活跃 的 状态 i, 将 它 的 令 牌 复制 传递 给 与 它 相 连 的 后 续 状 态 j, 并 将 令 牌 的 路 
径 得 分 s 加 上 状态 转移 概率 和 观察 概率 , 即 

Token; (t+ 1,s,w) = Token;(t,s,w) + log(a; ) + log(b (0,41)) (6-202) 

(3) 对 每 个 被 传播 扩展 后 的 后 续 状 态 ,可 能 同时 接收 到 多 个 Token, 但 它 只 保留 路 径 
得 分 最 高 的 那个 。 

(4) 在 完成 了 z 十 1 时 刻 的 复制 传播 后 ,从 t 十 1 时 刻 找 出 路 径 得 分 在 剪 枝 门限 容许 范围 
内 的 令 牌 ,作为 下 一 时 刻 的 活跃 令 牌 ,然后 继续 第 (2) 步 的 循环 ,直到 所 有 的 语音 帧 都 处 理 


令 牌 在 HMM 模型 状态 层 上 进行 复制 传递 , 令 牌 在 词 与 词 间 传递 则 需要 记录 路 径 信 
县 。 图 6-31 给 出 了 令 牌 传递 的 简单 的 识别 结构 。 


图 6-31 令 牌 环 识别 的 简单 的 识别 结构 


在 连续 语音 识别 中 ,还 要 考虑 词 边界 信息 和 历史 路 径 。 为 了 记录 搜索 路 径 , 令 牌 应 该 做 
相应 的 扩展 ,设立 一 个 词 连接 记录 (word link record,WLR) 的 指针 link。WLR 是 一 种 单 向 
链表 的 数据 结构 。 当 搜索 从 一 个 词 模型 的 引出 状态 问 男 一 个 词 模 型 的 引入 状态 传递 时 , 生 
成 一 个 WLR, 这 个 WLR 记录 了 前 一 个 词 的 标志 和 令 牌 的 link, 然 后 让 令 牌 中 的 link 重新 


指 回 到 这 个 WLR ,其 过 程 如 图 6-32 所 示 。 


| 递 时 ， 创 
建新 WLR， 
并 将 link 
措 问 它 


WLR 


图 6-32 WLR 的 生成 及 结构 图 


从 图 6-32 可 以 看 出 ,在 词 内 传递 令 牌 时 , 令 牌 的 link 不 需要 扩展 ,如 图 中 实 线 所 示 , 只 
需要 保存 得 分 值 s; 在 词 间 传 递 令 牌 时 , 令 牌 的 link 需要 扩展 ,如 图 中 的 虚线 所 示 。 被 扩展 
成 的 WLR 除 记 录 得 分 值 信息 外 ,还 记录 模型 ID .路 径 ID 以 及 时 间 信 息 。 当 产生 词 间 转 移 
时 ,就 会 生成 一 个 WLR 加 入 到 链表 结构 中 。 这 样 搜索 结束 时 ,根据 最 优 路 径 令 牌 的 link 所 
指 回 的 WLR 进行 回溯 ,就 可 以 得 到 最 佳 词 条 ,这 个 词 条 就 是 识别 结果 。 

3. 基于 前 向 搜索 后 向 回溯 的 N-best 算法 

Beam 搜索 算法 尽管 减少 了 计算 量 , 但 它 只 是 一 个 次 优 算法 ,而 且 只 能 得 到 一 条 最 优 的 
路 径 。 下 面 介 绍 一 种 两 步 搜 索 算 法 , 它 能 保证 全 局 最 优 ,而 且 能 依次 得 到 全 局 得 分 最 高 的 
N 条 候选 路 径 。 该 算法 第 一 部 分 是 从 初始 帧 到 最 末 帧 的 帧 同步 前 癌 各 点 搜索 , 另 一 部 分 是 
从 最 末 帧 到 初始 帧 异步 后 癌 树 搜索 。 从 初始 帧 开始 ,采用 Viterbi 算法 记录 所 有 局 部 路 径 的 
得 分 值 。 接 铸 用 改进 的 A- 算法 来 进行 帧 异步 后 回 搜 索 ,以便 扩 展 局 部 路 径 , 所 有 被 扩展 的 
路 径 和 都 是 依据 存放 在 堆栈 中 的 全 局 路 径 的 得 分 值 进行 排序 的 ,而 这 些 全 局 路 径 得 分 值 是 由 
两 部 分 相 加 计算 得 到 的 。 一 部 分 是 回溯 到 目前 结 点 为 止 的 局 部 路 径 分 值 , 另 一 部 分 是 相应 
的 前 向 搜索 时 ,即将 扩展 到 该 局 部 结 点 的 路 径 的 最 高 得 分 ,这 些 得 分 值 存 放 在 栈 顶 ,所 对 应 
的 最 优 局 部 路 径 首 先 锌 最 优 结 点 扩展 。 

N-Best 算法 的 框图 如 图 6-33 所 示 ,首先 输入 连续 语音 的 特征 矢量 序列 ,然后 用 各 基 元 


产生 路 径 映 像 图 所 有 局 部 路 径 (截止 到 任 一 语法 结 点 ) , 结 点 内 是 用 传统 Viterbi 算法 进行 计 
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算 的 。 后 一 部 分 采用 A* 算法 进行 帧 异步 树 搜 索 。 这 种 匹配 方法 是 每 次 只 能 得 到 一 条 当前 
最 优 路 径 ,最 优 N 个 候选 路 径 假 设 是 顺 次 输入 到 高 层 处 理 模 块 ,最 后 整个 系统 的 识别 结果 
是 NN 个 候选 路 径 假设 。 


由 同步 格 点 搜索 
(Bi) 


似 然 度 映 像 图 | 路 径 图 最 优 申 


如 寞 步 格 点 搜索 
(后 癌 ) 


图 6-33 NN-Best 搜索 算法 框图 


6.8 大 刘表 连续 语 首 识别 后 处 理 技术 


6.8.1 语 首 识别 中 间 结 果 的 表示 形式 


语 首 识别 系统 的 功能 是 实现 从 语 首 到 文本 的 转换 ,识别 结果 的 三 种 结构 形式 分 别 是 
One-best、N-best 和 Lattice。One-best 结果 是 指 测试 数据 通过 识别 帮 后 最 终 只 得 到 一 个 在 
相应 准则 下 的 最 优 解 。N-best 是 指 在 所 有 的 识别 结果 中 ,选取 前 N 个 在 相应 的 准则 下 相对 
比较 准确 的 识别 结果 。Lattice 是 一 种 包含 大 量 混杂 候选 的 网 格 结构 , 它 是 语音 识别 过 程 中 
经 过 一 次 解码 产生 的 结果 ,而 One-best 和 N-best 是 经 过 Lattice 二 次 解码 后 的 结果 。 下 面 
以 新 闻 联 播 语 料 中 “公告 还 规定 ”为 例 来 对 比 这 三 种 识别 结果 。 

1. One-best 结果 

One-best 是 基于 Lattice 一 次 解码 产生 的 识别 秆 霖 ， “onebest/ xwlb0828sp1 0_16. rec” 

它 是 在 最 大 后 验 概 认 准则 下 ,从 Lattice 结果 中 选 出 的 后 hi 
验 概 率 最 大 的 路 径 ,将 它们 连 成 词 串 就 是 One-best 结 宁 。 gong4 
如 图 6-34 所 示 HTK 工具 产生 的 One-best 结果 。 em 

One-best 结果 的 优点 比较 直观 ,易于 与 标准 结果 进 | 


guld 


行 对 比 。 对 One-best 结果 进行 分 词 、 去 候 用 词 等 处 理 就 ding4 
可 以 直接 将 它 应 用 于 分 类 以 及 检索 系统 中 。 虽然 它 是 最 “| 


大 后 验 概 率 准 则 下 的 最 优 结果 ,但 不 - 定 是 测试 数据 的 最 图 6-34 HTK 工具 产生 的 One-best 
佳 识别 结果 ,这 是 它 的 缺点 。 由 于 目前 语音 识别 系统 的 误 结果 


识 率 较 高 ,因此 One-best 在 后 续 应 用 中 受到 一 定 的 限制 。 


2， N-best 结果 


N-best 与 One-best 结果 同样 部 是 基于 最 大 后 验 概率 准则 下 的 识别 结果 ,不 同 的 是 
N-best 提供 了 比 One-best 绪 朱 更 多 的 候选 ,这 些 候选 按照 它们 后 验 概率 的 大 小 进行 排序 。 


图 6-35 给 出 了 “公告 还 规定 ”使 用 HTK 工具 产生 的 N-best 结果 ,其 中 NN 为 20。 尽 
N-best 比 One-best 结果 多 出 了 许多 候选 ,但 是 它 的 候选 毕竟 有 限 , 所 以 目前 很 多 系统 都 是 


采用 Lattice 的 结果 形式 。 


“{f;/NBEST/spl/xwlb0828spl_0_16., rec™ 


gongl 
gongl 
gongl 
gong4 
gongl 
gong4 
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gOong3 
gong4 
gong3 
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gong4 
gong4 
gong3 


图 6-35 


3， Lattice 结果 


“公告 还 规定 ”的 HTK 工具 给 出 的 Lattice 结构 如 图 6-36 和 图 6-37 所 示 。 


图 6-36 
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“公告 还 规定 ”使 用 HTK 工具 产生 的 N-best 结果 


“公告 还 规定 ”的 HTK 工具 给 出 Lattice 结果 头 文件 与 结 点 信息 


管 
中 
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图 6-37 “公告 还 规定 ”Lattice 结果 结 点 与 弧 信 息 
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图 6-36 所 示 为 “公告 还 规定 ”Lattice 结果 中 头 信息 和 结 点 的 信息 , 它 包 含 7 行头 信息 和 
136 行 结 点 信息 ,其 中 头 信息 包括 原始 的 语音 文件 路 径 和 名 称 、 语 言 学 模型 文件 路 径 和 名 
称 .语言 学 模型 与 声学 模型 的 比例 .词典 信息 以 及 整个 Lattice 结 点 个 数 、 弧 的 个 数 等 。 结 点 
言 县 包括 结 点 的 编号 ,以 及 每 个 结 点 对 应 的 时 间 信 息 。 

图 6-37 所 示 是 Lattice 的 弧 信 息 , 包 括 它 的 弧 编 号 .开始 结 点 、 结 束 结 点 、 这 条 弧 上 的 词 
串 .以 及 这 条 踊 的 声学 得 分 和 声言 学 得 分 。 由 上 面 两 个 图 可 知 ,Lattice 结果 包含 了 大 量 的 
候选 信息 ,很 方便 下 一 步 进行 处 理 , 目 前 越 来 越 受 到 研究 者 的 重视 。 


6.8.2 错误 处 理 


语音 识别 的 最 终 目 标 是 把 输入 的 培 音 序 列 和 转换 为 正确 的 汉字 或 音 蔬 序列。 在 大 词汇 量 
连续 语音 识别 中 ,由 于 各 种 因 系 的 影响 ,解码 输出 的 识别 假设 中 经 常 存在 错误 ,所 以 分 析 解 
码 输出 中 的 错误 ,在 解码 之 后 加 入 错误 处 理 模块 ,能 够 有 效 提高 语音 识别 的 正确 率 ,改进 识 
别 系统 的 性 能 。 

1. 错误 原因 分 析 

通 第 在 大 词汇 量 连 续 语 首 识 别 中 ,采用 最 大 后 验 概率 准则 进行 解码 : 

W = argmaxP (W)P(O | W) (6-203) 
在 给 定 观测 序列 O 的 情况 下 ,解码 器 选择 语言 学 模型 概率 PCW) 和 声学 模型 概率 PCO|W) 
的 联合 得 分 最 高 的 句子 假设 作为 One-best 罗 出 。 因 此 可 以 认为 解码 的 错误 是 由 于 输出 语 
音 与 声学 模型 不 相似 ,或 者 与 语言 学 模型 不 匹配 。 

影 啊 再 学 模型 的 匹配 ,从 而 造成 识别 错误 的 原因 有 很 多 ,例如 声 首 的 清晰 度 、 发 首 的 变 
换 语气 ,不 同年 龄 或 性 别 的 说 话 人 ,只 再 每 。 而 在 语言 学 领域 ,Kukich 认为 基于 文本 的 销 
误 有 5 个 层次 ,包括 字典 /结构 、 句 法、 请 义 ,话语 和 请 用 。 

这 样 按照 最 大 后 验 概率 准则 得 到 的 识别 结果 是 具有 整体 最 大 后 验 概 率 的 句子 ,显然 这 
样 的 识别 结果 的 句子 错误 率 最 小 。 但 由 于 存在 各 种 干扰 ,因此 目前 的 识别 系统 不 能 以 句子 
的 准确 率 来 统计 系统 性 能 。 在 普通 话语 音 识 别 中 , 通 篆 使 用 词 错 误 率 或 者 字 销 误 率 来 评价 
识别 结果 。 这 就 造成 了 评价 体系 和 解码 准则 不 匹配 的 问题 。 

2. 最 小 贝 叶 斯 风险 决策 规则 

中叶 斯 决策 论 是 语音 识别 解码 理论 的 基础 。 上 面 的 最 大 后 验 概 率 解 码 准 则 就 是 一 种 最 


小 化 风险 的 贝 叶 斯 决 案 规则 。 可 以 将 最 小 贝 叶 斯 风险 决策 规则 应 用 于 请 音 识别 中 ,以 解决 
上 述 面 临 的 予 盾 。 
定义 风险 图 数 如 下 : 
RW |O= YAW|IW*)PW* |O) (6-204) 
式 中 ,W 和 W?* 是 对 应 的 识别 输出 假设 空间 中 的 两 个 识别 结果 的 假设 ,损失 函数 A(WIW"*) 
表示 W“ 被 判断 成 W 市 来 的 损失 。 
语音 识别 解码 器 就 是 寻求 使 条 件 风险 函数 RCW10) 最 小 化 的 句子 假设 W , 即 


W = argminR (W | = argmin 之 /机 IW*)PCW* |O) (6-205) 
a 
如 果 
wy 
AW |W*) = (6-206) 
ls 其 和 独 
则 最 小 风险 决 保 准则 就 变 成 最 大 后 验 概 率 准 则 , 即 
RW|IO)= > PW’*|1O0)=1—P(W|oO) (6-207) 
WW" 
W = argminR (三 | DY = argmaxP (W | O) (6-208) 


这 样 得 到 的 最 大 后 验 概 率 准 则 只 是 使 名 了 于 的 错误 率 达 到 最 小 ,为 了 使 字 错 误 率 (word error 
rate, WER) 达到 最 小 ,应 该 定义 合适 的 损失 困 数 。 一 般 及 用 编辑 距离 (levenshtein 
distance) 作 为 损失 函数 ,以 达到 最 小 化 字 错 误 率 的 目的 。 

这 时 的 损失 函数 可 以 表示 为 


AW |IW*)=LOW|IW’)= > UW | Wi) (6-209) 
i 二 1] 


式 中 ,W,; 和 Wi 分 别 为 句子 W 和 Ws" 对齐 后 的 第 i 个 字 ,n 是 对 齐 后 字 的 数 上 日 ,LW |W?7 ) 表 
示 如 下 ， 


0，, W. = Wo 
CW: | TW ) = (6-210) 
1。 其 他 
这 样 就 得 到 了 新 的 决策 规则 
Wy argminR (W | 0) = argmin > ,LW [LV )POTY ”|O) (6-211) 
Ww 


6.8.3 最 小 字 错 误 率 解码 万 法 


根据 式 (6-211) 得 到 的 解 公 结果 具有 最 小 的 字 错 误 率 ,但 如 末 和 耳 接 计 算 , 将 是 一 个 两 层 
迭代 的 过 程 : 对 所 有 的 字 串 假设 计算 总 和 ,以 及 求 最 小 的 字 串 假设 。 因 此 计算 量 很 大 。 同 
时 ,在 上 述 过 程 中 还 需要 对 齐 凤 和 W * ,这 也 是 一 个 耗 时 的 过 程 。 如 何在 大 词汇 量 连 续 语 
痛 识 别 中 获得 具有 最 小 字 错 误 率 的 识别 结果 ,有 很 多 人 印 究 人 员 提 出 各 种 解决 方法 。 下 面 介 
绍 两 种 主要 的 方法 : 基于 N-best 的 方法 和 基于 Lattice 的 方法 。 

1. 基于 N-best 方法 


假定 识别 结果 的 表示 是 N-best 形式 ,W 和 W 是 其 中 的 字 串 假设 。 在 基于 N-best 方法 
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中 ,其 核心 思想 是 求 N 个 结果 的 中 心 矢 量 ,以 该 天 量 作为 N 个 结果 中 的 最 佳 候 选 。 
NN 站 i 
W. = argmin 之 /了 (友和 ,WO)PCIWw | O) E6212 
一 


根据 上 式 , 对 识别 输出 的 N-best 的 每 一 个 字 串 假设 ,计算 它 与 N-best 中 其 他 所 有 候选 
假设 的 编辑 距离 乘 上 其 后 验 概 率 的 累计 和 ,选择 其 中 累计 和 最 小 的 字 串 假设 作为 最 终 的 识 
别 结果 。 这 个 结果 WW. 称 为 中 心 假 设 。 相 对 于 识别 大 的 整个 搜索 空间 ,该 方法 在 一 个 较 小 
的 集合 中 选择 最 终 的 识别 结果 。 

2. 基于 Lattice 的 方法 

由 于 N-best 方法 的 假设 搜索 空间 有 限 ,而 Lattice 是 一 种 识别 假设 的 组 合 表 示 形 式 , 它 
比 N-best 有 更 多 的 假设 空间 。 因 此 ,许多 语音 识别 系统 ,如 HTK, 对 输入 的 语 首 除了 产生 
具有 最 大 后 验 概 率 的 句子 假设 之 外 ,还 提供 Lattice 输出 形式 。 

在 最 小 贝 叶 斯 风险 解码 框架 下 ,为 实现 最 小 词 错 误 率 的 解码 ,Mangu 提出 了 多 个 词 同 
时 对 齐 的 方法 ,用 来 代 蔡 传统 的 整个 句子 的 对 齐 。 混 消 网 络 即 是 Lattice 中 所 有 词 全 局 对 齐 
后 生成 的 结果 。 如 图 6-38 给 出 了 人 “人民 法院” 对 应 的 Lattice 和 混 消 网 络 (confusion 


network ,CN)., 


(a) Lattice 形 式 


yuan2/—0.2 
shen2/—10.5 mi4/—0.2 fa3/—0.] 
Ne f\ yorso6f 
(b) 混 清 网 络 形式 
图 6-38 “人 民法 院 ” 的 Lattice 形式 和 混 请 网 络 形式 


由 图 6-38 可 知 , 网 格 型 结构 的 Lattice 结果 ,经 过 聚 类 算法 强制 对 齐 后 变 成 了 紧密 压缩 
的 混 消 网 络 结构 ,图 6-38(b) 中 两 个 结 点 中 间 的 候选 集合 称 为 混 消 集 。 混 消 集中 每 个 候选 
的 后 验 概 率 可 以 通过 前 加 -后 同 算 法 来 求 得 。 混 消 网 络 与 最 小 词 错 率 谁 则 对 应 ,在 每 个 混 消 
集中 选择 后 验 概率 最 大 的 候选 ,将 它们 连 成 词 串 就 得 到 了 词 错 率 最 小 的 识别 结果 。 

1) 混 消 网 络 生 成 方法 

当前 最 优 的 混 消 网 络 生成 算法 为 Mangu 提出 的 聚 类 算法 (clustering algorithm)。 它 
在 保持 原 Lattice 中 俩 序 基 系 的 前 担 下 ,进行 有 限 次 的 对 齐 合并 生成 混 消 网 络 。 该 算法 的 优 
点 是 能 完整 地 保留 原 Lattice 的 信息 , 且 傈 持 俩 序 关 系 一 致 ; 缺点 是 计算 的 时 间 复 杂 度 较 高 
为 OOCON DJ)CN 是 Lattice 结构 中 转移 弧 的 数目 )。 下 面 就 以 该 算法 为 例 介 绍 混 消 网 络 的 生成 


(1) 初始 化 。 在 初始 化 过 程 中 ,实际 上 是 对 起 始 时 间 st、 结 束 时 间 et 以 及 弧 上 的 词 串 
W 全 都 相同 的 弧 建 立 等 价 类 。 在 Lattice 中 对 所 有 的 缴 人 遍历 一 次 就 可 以 将 满足 上 述 条 件 
的 弧 全 部 合并 。 图 6-39 为 “公告 还 规定 ”经 过 初始 化 后 生成 的 文本 文件 ,其 中 不 同 温 清 类 
之 间 用 空 行 分 开 。 
st 一 0.05 “一 WS= gongi V 二 a 一 一 1291. 48 1 一 一 7.290 
st 一 0. 18 WS= gongi a 一 一 480.78 ] 王 一 5.220 


st 一 0. 18 | WS= gongi 一 ] a 一 一 470. 60 ] 王 一 5.110 
st 一 0. 18 WS= gong4 a 一 一 467. 35 ] 王 一 4.690 


st 一 0.05 一 63 W=gongl 一 a 一 一 1304. 29 ] 王 一 5.760 


6-39 Lattice 经 过 初始 化 后 的 文本 文件 


在 对 弧 进行 合并 前 ,要 利用 前 同 - 后 癌 算法 计算 每 个 跌 的 后 验 概 率 , 图 6-39 中 最 后 一 列 
的 数据 即 为 对 应 弧 的 后 验 概率 。 初 始 化 过 程 要 将 弧 的 后 验 概 率 都 保留 下 来 ,以 便 在 下 一 步 
聚 类 中 能 对 后 验 概率 求 和 。 

(2) 相同 词 聚 类 。 初 始 化 并 没有 使 所 有 含 相 同 词 的 踊 合 并 到 一 个 集合 ,因此 本 步骤 将 
那些 弧 上 的 词 串 相同 , 且 有 时 间 重 芭 的 弧 ( 即 不 存在 偏 序 关系 ) 都 合并 到 一 起 。 其 中 , 弧 之 间 
的 合并 顺序 是 采用 弧 之 间 的 相似 性 来 确定 。 式 (6-213) 给 出 了 两 个 弧 的 集合 之 间 相 似 性 的 
计算 方法 。 

wr BF enet ,ez)。 力 (el)。 力 (ey) (6-213) 
ez EE, 
式 中 ,el 和 es 表示 两 个 缴 ,overlap(ei ez ) 表 示 用 这 两 段 跌 的 时 间 长 度 的 和 上 归 一 化 后 的 两 个 
着 之 间 的 时 间 重 合 值 。 式 (6-213) 中 计算 的 是 两 个 弧 的 后 验 概率 以 及 它们 之 间 时 间 交 付 的 
积 , 人 遍历 所 有 弧 的 集合 取 最 大 值 。 由 此 看 来 ,后 验 概率 越 大 有 旦 时 间 交 蕉 越 多 的 两 个 弧 最 先 被 
合并 ,每 合并 一 次 都 要 遍历 所 有 的 弧 , 青 次 说 明 聚 类 算法 时 间 复 杂 度 较 高 。 

图 6-40 为 “公告 还 规定 ”在 进行 相同 词 聚 类 后 的 结果 。Lattice 中 包含 相同 词 的 弧 全 部 
被 合并 到 一 个 集合 中 。 在 此 步骤 需要 注意 两 个 细节 问题 ,一 是 两 个 集合 合并 后 时 间 绪 点 的 
选取 ,这 里 取 起 始 时 间 中 较 大 的 及 结束 时 间 中 较 小 的 绪 上 总 作为 新 集合 的 时 间 绪 点 。 经 过 实 
验证 明 ,虽然 采用 缩短 原则 可 能 会 使 一 些 本 该 属于 该 集合 的 词 串 ,合并 到 其 他 集合 中 ,但 在 
总 体 上 的 效果 是 最 优 的 。 二 是 集合 的 后 验 概率 问题 ,图 6-40 中 第 3 列 与 第 4 列 的 信息 分 别 是 
合并 到 一 起 的 弧 的 个 数 , 以 及 这 些 弧 的 后 验 概率 的 和 。 采 用 如 下 的 方式 进行 后 验 概率 的 求 和 : 

lIn(x 二 + y) = ln(x) 二 + ln(y/z 1) (6-214) 


0. 000000 0.050000 0.000000 < 
0. 050000 0.210000 —6. 916986 guanl 


0.050000 0.210000 —b T7952 guang3 
0.050000 0. 220000 一 0.024082 gongl 


图 6-40 相同 词 聚 类 后 的 文件 
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(3) 不 同 词 聚 类 。 

这 一 步骤 是 将 所 有 词 集 合 中 不 存在 偏 序 关 系 ( 即 有 时 间 交 三) 的 集合 作为 合并 的 候选 ， 
按照 博 音 相似 性 的 高 低 来 确定 合并 顺序 ,下 到 所 有 集合 都 满足 俩 序 基 系 。 集 合 之 间 博 音 的 
相似 性 按 如 下 方式 计算 . 

SIM(F, ,F;) = a 

Tuo E Words( F, ) 

式 中 ,avg 表示 计算 平均 值 。 由 式 (6-215) 可 知 , 其 计算 的 是 两 个 混 清 集合 中 各 个 弧 相似 性 的 

均值 ,其 中 ,ps(w) 二 p(teEF: Word(e) 二 w}) 表 示 集 合 中 某 个 词 串 在 整个 集合 中 所 占 的 比例 ， 
sim(。,。) 表 示 两 个 词 串 之 间 的 语音 似 然 性 ,人 它 等 于 1 减 去 编辑 距离 除 以 两 词 串 长 度 和 。 

每 一 个 混 消 集中 ,所 有 弧 的 后 验 概 率 的 和 应 严格 等 于 1, 如 采 在 聚 类 中 产生 概率 和 不 为 
] 的 情况 , 则 会 加 入 一 个 " 空 弧 ? 使 概率 和 为 1。“ 空 踊 ? 是 为 了 弥补 混 消 集中 缺失 的 概率 , 它 
的 概率 值 为 1 减 去 其 他 所 有 弧 的 概率 之 和 。 

如 图 6-41 给 出 了 “公告 还 规定 ”最 终生 成 的 混 清 网 络 文 本 表示 形式 。 可 以 看 出 ,Lattice 
中 所 有 的 弧 已 经 被 合并 为 5 个 混 洒 集 ,并 且 每 个 候选 词 后 面部 列 出 了 相应 的 后 验 概率 ,可 以 
将 此 文本 表示 形式 转化 为 图 形 , 如 图 6-42 所 示 。 


(8-215) 


s1m (te » TU ) a ps, (To ) Pr, (zu ) 


. 000000 0.050000 0 二 s> 0. 000000 


. 050000 
. 050000 
. 050000 
. 050000 


. 240000 
. 240000 
.240000 
. 240000 


. 460000 


0. 460000 


.010000 


.750000 


. 090000 


. 210000 
. 210000 
. 210000 
.210000 


. 420000 
. 420000 
. 420000 
. 420000 


.000000 
. 600000 


.150000 


. 000000 


.100000 


0 


gongl 
gong4 


guanl 


.024082 
3.929123 
6.916986 
9.779752 


) ,290282 
. 451944 
.339334 
. 345838 


.373127 
. 005343 


9. 000135 


0.000138 


. 343400 


6-41 “公告 还 规定 "最 终生 成 的 混 消 网 络 文本 表示 形式 


gongl baod bal2 


图 6-42 “公告 还 规定 ”的 混 清 网 络 图 形 表 示 
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由 图 6-42 可 以 看 出 ,包含 大 量 混 杂 候 选 的 Lattice 经 过 聚 类 算法 转化 为 仅 有 5 个 混 靖 
集 的 混 消 网 络 ,并 且 可 以 方便 地 从 每 个 混 消 集合 中 选 出 后 验 概 率 最 大 的 候选 。 在 这 个 混 清 
网 络 中 ,“gongl”“bao4”“hai2”guil” 和 “ding4” 这 5 个 候选 在 它们 各 目的 混 消 集中 后 验 概 府 
最 大 ,其 中 "bao4? 是 错误 的 识别 结果 。 这 就 需要 对 混 消 网 络 进行 后 处 理 , 对 识别 结果 进行 


纠 铬 。 
利用 聚 类 算法 生成 的 混淆 网 络 保持 了 Lattice 中 原 有 的 偏 序 ,能 够 正确 地 表示 对 应 的 


2) 混 消 网 络 评价 

混 消 网 络 质量 的 评价 包括 两 方面 内 容 : 一 是 影 啊 混 消 网 络 质量 的 因素 ,主要 的 指标 有 
Lattice 攀 校 国 值 ,以 及 计算 后 验 概率 时 语言 学 模型 和 声学 模型 之 间 的 比例 因子 ; 二 是 混 消 
网 络 质量 的 评价 ,一般 采用 的 三 个 指标 是 识别 率 、 复 杂 度 和 失真 度 来 评价 。 

(1) 影 啊 混 消 网 络 质量 的 参数 。 

Lattice 剪 校 国 值 。 在 典型 的 Lattice 结构 中 ,包含 一 些 后 验 概率 值 非常 低 的 弧 , 它 们 
是 正确 识别 绪 休 的 可 能 性 很 低 ,并 且 这 些 跌 可 能 会 导致 混 清 网 络 偶 序 的 混乱 ,把 本 不 应 属于 

-个 混 请 集 内 的 候选 通过 这 样 一 些 听 错 误 地 合并 为 一 个 混 消 集合 ,这 样 驶 形成 了 插 人 错误 

和 删除 错误 。 

为 了 减少 上 述 的 偶 序 混乱 和 错误 ,在 初始 化 过 程 中 对 Lattice 进行 盘 梳 处理 。 首 先 , 定 
义 一 个 国 值 ,把 原始 Lattice 中 所 有 后 验 概率 低 于 该 国 值 的 踊 剪 反 , 再 对 剩 下 的 踊 进 行 相应 
的 聚 类 。 这 样 的 处 理 将 大 大 提高 聚 类 算法 的 效率 。 一 般 情况 下 剪 术 国 值 是 以 一 个 权 值 乘 
Lattice 中 所 有 弧 的 后 验 概 率 的 平均 值 给 出 的 , 权 值 可 以 通过 实验 调节 。 人 合理 地 选 定 一 个 前 
校 国 值 ,不 仅 能 够 提高 混 消 网 络 的 质量 ,而 且 能 提高 程序 运行 效率 。 

语言 学 模型 与 声学 模型 比例 因 了 于 。 语 言 学 模型 和 声学 模型 比例 因 了 于 的 选取 决定 后 
验 概率 值 的 量 级 ,所 以 它 对 后 验 概率 的 计算 精度 会 产生 很 大 影 啊 ,一般 这 一 比例 因子 应 依据 
经 验 值 来 选取 。 

(2) 混 消 网 络 的 识别 率 。 混 消 网 络 的 识别 率 是 判断 混 消 网 络 质量 最 重要 的 指标 ,这 里 
的 识别 率 有 两 种 ,一 个 是 Consensus 识别 率 , 男 一 个 是 Oracle 识别 率 。 前 者 是 指 选 取 每 个 
混 消 集中 后 验 概率 最 大 的 候选 ,将 这 些 候 选 连 成 一 个 句子 ,并 将 它 与 标准 标注 文件 相对 比 得 
到 的 识别 率 ; 后 着 是 指 在 混 消 网 络 中 ,选取 与 实际 结果 最 为 相近 的 候选 ,该 候选 与 标注 文件 
对 比 后 得 到 的 识别 率 。Oracle 识别 率 是 Consensus 识别 率 能 达到 的 最 大 信 。 通 篆 将 
Consensus 识别 率 与 One-best 识别 率 对 比 ,判断 混 请 网 络 的 质量 。 

(3) 混 铺 网 络 的 复杂 度 。 混 消 网 络 的 复杂 度 是 指 该 混 消 网 络 混 消 集中 踊 的 平均 个 数 ， 
它 与 初始 化 过 程 中 剪 校 的 国人 密切 相关 ,反映 了 混 消 网 络 能 够 以 较 少 的 踊 数 来 完整 地 表示 
原始 Lattice 中 全 部 信息 的 能 力 , 计 算 如 下 : 


N—1 
| 本 | 


式 中 ,Ce 为 混 消 网 络 中 弧 的 平均 数 ,S9 表示 第 n 个 混 湖 集 , 则 | Sr | 未 示 这 个 混 消 集中 的 
激 数 ,N 为 混 汪 网络 中 结 点 的 个 数 ,N 一 1 为 混 消 集 的 个 数 。 
混 消 网 络 的 复杂 度 在 一 定 程度 上 反映 了 混 请 网 络 的 紧凑 程度 ,其 值 越 小 表明 Lattice 被 
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压缩 的 程度 越 高 ,这 样 每 个 混 清 集中 葛 争 的 候选 越 少 , 越 容 多 得 到 正确 的 结案 。 

(4) 混 消 网 络 的 全 局 对 齐 失 真 。 

全 局 对 齐 失 真 反 有 映 一 个 混 消 集中 所 有 竞争 候选 间 语 音 相 似 性 的 平均 值 , 它 能 比较 客观 
地 说 明 混 消 集 内 各 候选 间 的 相似 程度 。 和 定义 全 局 对 齐 失 真 ,首先 要 定义 一 个 混 靖 集中 的 平 
均 相 似 性 : 


] "CH 
| Se | (| Sr | 一 1) a sim(iws sw )» | Sr |>] 
| Yess ES si (6-217) 


= 
ls | Sr” |=1 
式 中 ,| Sw | 等 的 定义 与 前 面 定义 相同 ,sim(w。 ;we )cL0,1 为 踊 e 上 的 词 串 w。 和 弧 e; 上 
的 词 串 w。 之 间 的 全 首相 似 性 ,用 编辑 距离 来 度量 语 首 的 相似 性 。 在 计算 平均 相似 性 时 要 将 
每 个 集合 中 的 空 弧 计算 在 内 , 空 弧 与 任何 弧 之 间 的 相似 性 定义 为 1, 表示 为 sim(w, ,zs ) 王 1。 
现在 来 定义 混淆 网 络 的 全 局 对 齐 失 真 . 


De 一 S\(1— DS”)) (6-218) 
对 于 一 个 混 消 网 络 , 全 局 对 齐 失 丰 越 小 ,说 明 它 越 接近 于 实际 情况 ,那么 这 个 混 消 网 络 
的 质量 也 就 越 好 。 
在 上 述 几 项 影响 因素 和 评价 指标 中 ,它们 之 间 的 关系 往往 是 相互 制约 的 ,所 以 要 通过 大 
量 实验 来 验证 ,找到 一 个 性 能 最 优 的 平衡 点 。 


6.9 基于 HMM 的 自 适 应 技术 


一 个 语音 识别 系统 的 最 终 目的 是 具有 很 好 的 系统 识别 性 能 ,而 能 否 具 有 这 样 性 能 的 一 
个 关键 问题 ,就 是 识别 模型 是 否 很 好 地 刻画 语音 特征 。 理 论 上 ,如 果 有 充足 的 数据 来 训练 模 
型 参数 , 则 最 终 的 模型 可 以 很 好 地 描述 训练 数据 的 特征 。 但 是 一 般 系 统 在 使 用 时 ,训练 数据 
和 测试 数据 之 间 会 存在 一 定 的 不 匹配 ,这 将 导致 系统 识别 性 能 的 下 降 。 

由 于 训练 好 的 HMM 参数 可 以 在 一 定 程度 上 表示 训练 环境 的 情况 ,而 实际 使 用 时 的 测 
试 数 据 可 以 反映 测试 环境 的 某 些 特征 。 因 此 ,要 使 训练 环境 和 测试 环境 达到 匹配 ,可 以 有 两 
种 方法 : 一 种 是 通过 修改 当前 测试 环境 下 的 特征 序列 ,使 其 与 已 经 训练 好 的 HMM 模型 参 
数 匹 配 , 即 基 于 特征 的 月 适应 方法 ; 另 一 种 是 通过 少量 测试 环境 的 目 适 应 数据 修改 HMM 
模型 的 参数 , 即 基于 模型 的 上 月 适应 方法 。 

基于 特征 的 自 适 应 方法 和 基于 模型 的 自 适应 方法 ,虽然 都 可 以 使 训练 环境 与 测试 环境 
匹配 ,但 前 一 种 方法 对 每 帧 语音 特征 都 要 使 用 相同 的 方法 进行 修改 ,效率 较 低 。 而 在 模型 自 
适应 方法 中 ,将 模型 参数 做 一 次 改变 ,就 可 以 对 当前 环境 所 有 的 特征 序列 有 效 , 因 此 效率 要 
相对 高 些 。 

由 于 HMM 技术 是 语音 识别 系统 中 的 主流 方法 之 一 ,因此 ,这 里 着 重 考虑 基于 HMM 
模型 参数 的 日 适 应 方法 。 基 于 HMM 模型 参数 日 适应 的 方法 大 致 可 以 分 为 两 大 类 ;: 一 是 
Bayesian 理论 框架 下 的 上 月 适应 算法 ; 二 是 基于 变换 的 日 适应 算法 。 


6.9.1 基于 Bayesian 理论 的 自 适 应 方法 


在 基于 Bayesian 方法 中 ,一 般 采 用 最 大 后 验 (maximum a posteriori, MAP) 佑 计 准 则 。 
假定 竺 估计 的 参数 是 一 个 随机 变量 , 它 服 从 某 种 先 验 分 布 。 如 梨 O 表示 日 适应 数据 ,wu 表示 
待 佑 计 的 参数 ,ua) 为 该 参数 的 移 验 分 布 , 则 使 用 MAP 准则 ,有 

MAP 一 argmaxp (u 1 0) cc argmaxp (O | WwW pl(u) (6-219) 
可 以 看 出 ,MAP 自 适应 方法 的 实质 是 将 先 验 知识 p(w) 和 从 有 自 适应 数据 中 得 到 的 知识 p(O1u) 
结合 起 来 。 在 HMM 框架 中 ,假设 每 个 状态 的 观察 输出 概率 是 服从 高 斯 分 布 的 ,并 对 均值 
做 相应 的 上 自 适 应 操作 , 则 待 佑 参数 为 状态 i 上 的 均值 uj; , 它 的 先 验 分 布 为 p(wu;)。 一 般 情 况 
下 ,这 个 先 验 分 布 可 以 假设 为 


pl(ui) CC exp| 一 到 (Us; -me 一) [0-220) 
式 中 ,m; 和 r; 分 别 是 先 验 分 布 的 均值 和 一 个 调整 参数 ,而 w; 和 > 为 自 适应 前 模型 的 均值 
这 样 就 可 以 使 用 EM 算法 进行 参数 估计, 其 中 的 QQ 〇 函数 定义 如 下 : 
QQ, 1) = 常量 + 》)P(0,Q | WDlog(P(0,Q | WD pu)) (6-221) 
| 


式 中 ,8 为 所 有 可 能 的 状态 序列 的 集合 ,4 为 HMM 的 模型 参数 ,其 中 包含 了 待 估计 的 参数 
pi，P(O,QI) 为 给 定 4 时 ,状态 系列 Q 输出 语音 特征 天 量 厅 列 O 的 概率 。 

上 述 方程 和 正常 QO 函数 的 不 同 点 在 于 引入 了 wi 的 先 验 知识 。 将 该 Q 函数 对 wu; 求偶 
导 , 并 令 其 为 去, 可 以 得 到 关于 下 的 合计 公式 。 对 一 表 日 适应 数据 的 情 帝 ,u; 的 估计 为 


0 
SPAGTI0 二 tm; pe 
的 二 =Bo(t)+(l—Bp)m (6-222) 
A 于 所 1 十 一 一 
ti 一 1] 


2 
式 中 ,0o(?) 是 0 在 t 时 刻 (1 硅 t 夺 TT) 的 特征 矢量 ,y(t) 是 在 1 时刻 处 于 状态 i 的 后 验 概率 ， 
> 

0i(1) 一 二 一 一 一 ,8 一 
4 LF T 
3 DJ) 

从 上 式 可 以 看 出 ,日 适应 后 的 均值 天 量 实质 是 在 初始 值 和 日 适应 数据 的 均值 之 则 的 线 
性 插值 。 月 适应 数据 量 越 大 ,8 值 越 大 , 目 适 应 后 的 均值 越 接近 月 适应 数据 样本 均值 : 相反 ， 


1 


Ci 


如 条目 适应 数据 量 越 少 ,日 适应 后 的 均值 越 依 赖 于 初始 均值 。 如 宁肯 适应 数据 无 限 多 , 则 这 
时 的 MAP 合计 每 价 于 最 大 似 然 估计; 而 在 没有 目 适 应 数据 的 情况 下 ,上 式 的 结案 等 于 初 
始 值 ,相当 于 没有 任何 上 月 适应 操作 。 这 也 是 MAP 方法 的 最 大 的 缺点 。 


针对 MAP 方法 的 上 述 和 缺点 ,Zavaliagkos 提出 扩展 MAP 方法 (EMAP), 将 均值 做 相应 
搁 绑 ,把 所 有 高 斯 分 布 的 均值 构造 一 个 大 的 均值 矩阵 ,在 这 个 均 全 证 阵 的 基础 上 应 用 MAP 
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方法 ,对 整个 均值 矩阵 做 类 似 的 插值 目 适 应 。 这 种 方法 假设 每 个 高 斯 分 布 的 均值 之 间 存 在 

- 定 的 相关 性 ,这 样 在 某 个 均值 没有 日 适应 数据 的 前 提 下 ,利用 这 种 相关 性 也 可 以 进行 一 定 
的 日 适应 操作 。Rozzi 和 Stern 用 LMS 算法 来 实现 EMAP 方法 ,提高 了 EMAP 方 法 的 计 
算 效 率 。 另 外 ,Shinoda 和 Lee 提出 Structured MAP 方法 ,这 种 方法 用 一 个 树 形 的 结构 佑 
计 参 数 , 上 一 层 的 结 点 作为 下 一 层 结 点 的 先 验 知识 ,最 后 将 各 层次 的 参数 值 加 权 结 合 ,并 
目 权 从 可 以 随 看 日 适 应 数据 的 变化 而 变化 。Ahadi 和 Woodland 提出 一 种 基于 回归 的 模 
型 预测 方法 (RMP) ,这 种 方法 假设 不 同 语音 模型 系数 之 间 的 关系 可 以 用 线性 肾 数 表示 ， 
对 于 没有 自 适 应 数据 的 语音 模型 ,用 自 适应 后 的 结果 及 线性 关系 预测 该 模型 的 自 适 应 


6.9.2 基于 变换 的 目 适应 万 法 


基于 变换 的 自 适 应 方法 ,不 是 直接 对 HMM 的 某 个 参数 进行 估计 ,而 是 假设 自 适应 后 
的 参数 与 没有 日 适应 前 的 参数 之 则 存在 某 种 函数 关系 ,利用 日 适应 数据 可 以 将 该 函数 的 参 
数 估计 出 来 ,并 根据 前 述 的 这 种 变换 关系 得 到 自 适应 后 的 参数 值 。 在 这 种 方法 中 ,一 般 采 用 
最 大 似 然 准则 ,假设 未 和 参数 固定 ,而 不 是 一 个 随机 变量 。 与 MAP 准则 相 比 ,在 最 大 似 然 
准则 中 因为 未 知 参 数 是 固定 的 ,所 以 没有 先 验 的 分 布 知识 。 它 的 目标 是 使 月 适应 数据 的 似 
然 度 最 大 ,可 表示 为 

uu 一 argmaxp (OQ | uw) (6-223) 

在 基于 变换 的 目 适 应 方法 中 ,可 以 将 待 估计 参数 做 相应 的 拉 绑 ,这样 在 没有 目 适 应 数据 
的 前 提 下 ,也 可 以 根据 拥 绑 信 息 对 参数 做 一 定 的 修改 ,这 也 是 这 类 方法 的 最 大 优点 。 

最 典型 的 基于 变换 的 上 月 适应 方法 是 Leggetter 提出 的 最 大 似 然 线性 回归 (maximunm 
likelihood linear regression ,MLLRI) 方 法 。 它 是 在 Cox 提出 的 线性 回归 模型 思想 基础 上 得 
到 的 。 在 MLLR 方法 中 ,假定 上 月 适应 前 的 均值 天 量 和 月 适应 后 的 均值 天 量 之 间 存 在 一 定 的 

A=Axtb=wé (6-224) 
式 中 ,W 为 Lb A ,为 [1, py]'。 

利用 一 定 的 目 适 应 数据 ,可 以 在 最 大 似 然 准 则 的 基础 上 售 计 出 变换 和 矩阵 WW。 为 了 减少 
信 计 参数 的 数量 ,相应 地 扩大 目 适 应 数据 的 数量 ,在 MLLR 方法 中 引入 了 回归 类 的 概念 。 
和 学 统 地 说 ,一 个 回归 类 就 是 使 用 相同 变换 矩阵 的 一 组 均值 矢量 。 这 样 在 估计 变换 矩阵 W 
时 ,可 以 利用 所 有 属于 这 个 回归 类 的 目 适 应 数据 来 估计。 变换 矩阵 佑 计 出 来 后 ,在 具体 目 适 
应 时 ,如果 菏 个 均值 矢量 没有 相应 的 日 适应 数据 ,只 要 找到 它 所 属 的 回归 类 ,使 用 该 回归 类 
的 变换 矩阵 就 可 以 对 这 个 均值 矢量 做 日 适应 变换 。 一 般 回 归 类 可 以 廊 态 地 采用 某 种 距离 测 
度 来 确定 ,也 可 以 通过 动态 构造 回归 树 的 方法 确定 回归 类 的 数目 。 对 于 一 个 小 规模 的 
HMM 系统 ,回归 树 中 叶子 结 点 表示 一 个 单独 的 分 量 ,高 一 层 表 示人 分量 之 间 基 于 距离 测度 的 
相似 的 一 组 分 量 , 根 结 点 包含 所 有 的 混合 分 量 。 当 HMM 具有 多 个 混合 分 量 时 ,用 单独 的 

-个 分 量 作 为 叶子 结 点 不 合适 ,这 时 的 叶子 结 点 是 基于 初始 聚 类 的 基本 类 ,每 一 个 基本 类 包 
含 一 组 距离 测度 相近 的 分 量 。 对 变换 矩阵 W 估计 的 方法 和 HMM 重 估算 法 有 些 类 似 , 其 中 


QQ,4) 二 常量 十 >,P(O,Q | WDlog(P(Q,0 | )) 


| 


N T 
= 常量 十 P(O | 2) 2》) 2)Y;(t)1ogb; (0,) (6-225) 


1 三 1] # 三 1 


在 观察 输出 概率 的 具体 表达 形式 中 ,均值 市 人 ApA=WS 将 变换 矩阵 引入 到 QO 〇 了 轴 数 中 ,通过 
QG 因数 对 变换 矩阵 求 寻 ,并 令 其 为 雪 可 得 到 方程 组 为 


T 一 1 
QQ = P(O|A PAP NG —Wé)é& =0 (6-226) 


D320 D3 or = Dn we, §7 (6-227) 


对 这 个 方程 组 使 用 高 斯 消 元 法 可 求 出 对 变换 矩阵 的 估计 值 。 

Gales 和 Woodland 在 MLLR 框架 下 实现 了 对 均值 和 方差 都 做 自 适应 的 方法 ,也 获得 
了 较 好 的 效果 ,但 对 方差 的 变换 参数 估计 时 的 计算 代价 巨大 。 无 论 是 对 均值 做 自 适 应 变换 ， 
还 是 对 均值 和 方差 都 做 相应 的 月 适应 变换 ,实验 结果 都 证 实 了 这 种 方法 对 少量 上 月 适应 数据 
情况 下 的 效果 较 好 。 

在 基于 变换 的 自 适 应 方法 中 ,除了 采用 式 (6-224) 的 变换 形式 外 ,还 有 一 些 其 他 的 变换 
形式 。 如 在 随机 匹配 (stochastic match) 算 法 中 ,采用 一 种 平移 变换 ,这 是 式 (6-224) 中 A 和 矩 
阵 为 单位 阵 时 的 特殊 情况 。 由 于 实际 语音 空间 的 非 线 性 关系 ,人 们 也 采用 相应 的 非 线 性 变 
换 来 刻画 这 种 关系 。 目 前 的 非 线 性 变换 算法 主要 采用 分 段 线性 变换 方法 和 人 工 神 经 网 络 等 
方法 。 但 由 于 非 线 性 变换 在 数学 处 理 上 的 难度 ,其 性 能 目前 还 不 是 十 分 理想 。 

总 体 而 言 ,基于 变换 方法 及 其 改进 方法 是 一 种 非常 有 效 的 有 目 适 应 方法 ,其 最 大 的 优点 
是 利用 了 参数 之 间 的 关系 ,使 得 没有 自 适应 数据 的 模型 参数 也 可 以 得 到 一 定 程 度 的 自 适 
应 。 在 少量 自 适 应 数据 前 提 下 可 以 实现 快速 的 自 适 应 ,但 基于 变换 的 方法 缺少 严格 的 理 
论 依 据 。 

基于 Bayesian 框架 的 目 适应 方法 的 优点 是 利用 了 参数 的 一 些 先 验 知 识 , 并 且 当 有 目 适 
应 数据 足够 大 时 ,其 模型 收 伊 于 从 新 环境 收集 到 的 数据 重新 训练 的 模型 ,这 种 方法 具有 
较 好 的 一 致 性 和 尖 近 性 。 但 当 数 据 量 过 少 , 或 者 当 原 始 模型 和 新 模型 相差 较 大 时 ,这 种 
方法 对 系统 的 性 能 改善 不 大 ,甚至 会 下 降 。 有 研究 者 试图 将 这 两 种 方法 的 优点 结合 
来 ,或 采用 其 他 的 方法 来 处 理 模 型 参数 自 适 应 问题 。 例 如 ,Ohkura 提出 一 种 矢量 场 平 滑 
方法 来 克服 训练 数据 不 充分 的 情况 。 这 种 方法 假设 均值 矢量 的 训练 轨迹 是 一 个 平滑 的 矢 
量 场 。 由 于 自 适 应 数据 较 少 ,有 些 均 值 撩 量 无 法 进行 正常 的 自 适应 操作 ,这 时 可 以 用 该 矢量 
周围 已 经 做 了 有 目 适 应 的 均值 矢量 和 它 的 初始 值 之 间 插 值 来 作为 该 矢量 的 估计 值 ,并 在 此 基 
础 上 进一步 平滑 得 到 最 后 估计 结果 。 这 种 方法 假设 各 模型 参数 之 间 的 关系 是 一 种 线性 回归 
的 关系 ,并 利用 已 有 的 特定 模型 参数 (模拟 目标 参数 ) 和 初始 模型 参数 ( 原 参 数 ) 估 计 出 线性 
回归 系数 。 这 种 方法 的 缺点 是 需要 已 知 一 些 模拟 目标 参数 ,而 这 些 模拟 目标 参数 与 真正 的 
目标 参数 之 间 会 有 一 定 的 偏差 ,因此 会 带 来 额外 的 附加 误差 ; 虽然 在 该 方法 中 用 附加 方差 
来 表示 这 部 分 误差 ,但 也 会 影响 识别 效果 ,并 且 这 些 模拟 目标 参数 在 一 些 应 用 环境 中 也 不 宜 
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获得 。 

从 前 面 介绍 的 这 些 方法 可 以 看 出 ,未 来 语音 识别 中 目 适 应 技术 研究 的 重点 内 容 包括 : 
山 快 速 自 适 应 鼻 法 的 研究 ,这 要 求 在 极 少 月 适应 数据 前 提 下 快速 调整 模型 参数 实现 月 适应 ， 
击 要 考虑 在 训练 数据 不 充分 的 情况 下 ,如 何在 信 计 参数 数量 和 刻画 映 册 关系 粗细 上 找到 最 
佳 的 平衡 点 ,这 方面 的 研究 对 口语 对 话 系 统 等 应 用 非常 重要 ; 多 将 上 述 两 类 方法 在 统一 的 
理论 框架 中 结合 ,虽然 目前 有 一 些 方法 试图 将 这 两 类 技术 的 优点 结合 起 来 ,但 效 来 不 是 很 令 
人 洱 意 ,并 且 缺 乏 坚 实 的 理论 基础 ; 在 基于 变换 的 日 适应 方法 中 , 非 线 性 变换 方法 仍 有 很 
大 的 发 展 空间 。 如 何 选择 非 线性 变换 的 形式 ,以 及 采用 什么 算法 进行 参数 倘 计 部 会 对 最 终 
结 采 产生 重要 影 啊 。 


6.10 ”基于 深度 学 习 的 语 首 识别 技术 


多 年 来 ,基于 GMM-HMM 的 语音 识别 拉 术 一 二 在 本 领域 占据 看 主 奸 地位。 尽管 在 20 
世纪 80 年 代 , 人 研究 者 也 曾 笠 试看 在 语音 识别 研究 中 引入 人 工 神 经 网 络 (artificial neural 
network,， ANN) 的 方法 ,用 于 声学 建 模 ,并 使 用 反 向 传播 (back propagation,BP) 算 法 来 进 
行 训练 ,但 由 于 当时 机 如 运算 能 力 的 限制 及 多 层 网 络 训练 的 履 淋 性 ,其 效果 并 不 理想 。 生 到 
2010 年 ,在 学 术 界 和 工业 界 的 紧密 合作 下 ,深度 学 习 和 深度 神经 网 络 (deep neural network， 
DNN) 撤 术 开 始 对 语音 识别 领域 产生 重要 的 影响 ,其 识别 错误 率 才 显 闭 下降。 基于 DNN 的 
语音 识别 拉 术 是 深度 学 习 方法 在 工业 界 的 第 一 个 成 功 应 用 ,具有 里 程 碑 式 的 意义 。 

深度 学 习 是 机 融和 学 习 的 于 领域 , 它 是 对 多 层 表 示 和 抽象 的 和 学习, 通过 多 层 表 示 来 对 数据 
之 间 的 复 洒 关系 进行 建 模 。 它 比 传统 的 浅 层 模型 拥有 更 多 层 的 非 线 性 变换 ,使 得 其 在 表达 
和 建 模 能 力 上 更 加 强大 ,因而 在 语音 这 种 复杂 信号 的 处 理 上 更 具 优 努 。 目 前 ,基于 深度 学 习 
的 语 首 识别 技术 已 经 得 到 了 学 术 界 和 工业 界 的 高 度 重 视 , 并 不 断 取得 突破 性 进展 。 其 发 展 
历程 可 大 体 分 为 三 个 阶段 : @@ 基 于 DNN-HMM 的 语音 识别 技术 ; 加 基于 循环 神经 网 络 
(Recurrent Neural Networks,RNN) 的 语音 识别 技术 ; 回 端 到 端 (End to End) 的 语音 识别 
技术 。 下 面 分 别 来 介绍 这 些 典 型 的 技术 。 


6.10.1 基于 DNN-HMM 的 语音 识别 技术 


基于 DNN-HMM 的 语音 识别 声学 模型 结构 如 图 6-43 所 示 。 与 传统 的 基于 GMM- 
HMNM 的 声学 模型 相 比 ,唯一 的 不 同 点 在 于 用 DNN 替换 了 GMM 来 对 输入 二 音信 号 的 观 
察 概率 进行 建 模 。DNN 与 GMM 相 比 具有 如 下 的 优点 : DNN 不 需要 对 声学 特征 所 服 
从 的 分 布 进行 假设 ; DNN 的 输入 可 以 采用 连续 的 拼接 帧 ,因而 可 以 更 好 地 利用 上 下 文 
的 信息 ; @) DNN 的 训练 过 程 可 以 采用 随机 优化 算法 来 实现 ,而 不 是 及 用 传统 的 批 优 化 算 
法 ,因此 当 训 练 数 据 规模 较 大 时 也 能 进行 非常 高 效 的 训练 ,显然 ,训练 数据 规模 越 大 ,所 得 到 
的 声学 模型 就 越 精确 ,也 就 越 有 利于 提高 语音 识别 的 性 能 ; 由 在 发 音 模式 分 类 上 ,DNN 这 
种 区 分 式 模型 也 要 比 GMM 这 种 产生 式 模 型 更 加 合适 。 

DNN 的 输入 是 传统 的 语音 波形 经 过 加 窗 .分 帧 ,然后 提取 出 来 的 频谱 特征 ,如 MEFCC、 
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PLP 或 更 底层 的 滤波 大 组 (filter bank,FBK) 声 学 特征 等 。FBK 特征 多 利用 Mel 滤波 大 组 
在 功率 谱 上 进行 滤波 并 计算 对 数 能 量 , 然 后 采用 其 规整 值 来 表示 。 目 前 ,FBK 特征 获得 了 
广泛 的 成 功 , 证 明了 原始 语音 频谱 对 基于 DNN 的 语音 识别 技术 的 重要 性 。 与 传统 的 GMM 
采用 单 帧 特征 作为 输入 不 同 ,DNN 将 相 邻 的 寿 干 帧 进行 拼接 来 得 到 一 个 包含 更 多 信息 的 输 
入 向 量 。 研 究 表 明 ,采用 拼接 帧 作为 输入 是 DNN 相 比 GMM 能 获得 明显 性 能 提升 的 关键 
转移 概率 


HIVIM 


DNN 


语音 声学 特征 序列 


图 6-43 ”基于 DNN-HMM 的 语音 识别 声学 模型 结构 


DNN 输出 向 量 的 维度 对 应 HMM 中 状态 的 个 数 , 通 常 每 一 维 输出 对 应 一 个 绑 定 的 
triphone 状态 。 训 练 时 ,为 了 得 到 每 一 帧 语音 在 DNN 上 的 目标 输出 值 ( 标 注 值 ) ,需要 通过 
事先 训练 好 的 GMM-HMM 识别 系统 在 训练 语 料 上 进行 强制 对 齐 (Force alignment) 。 即 要 
训练 一 个 DNN-HMM 声学 模型 ,首先 需要 训练 一 个 GMM-HMM 声学 模型 ,并 通过 基于 
Viterbi 算法 的 强制 对 齐 方法 给 每 个 语音 帧 打上 一 个 HMM 状态 标签 ,然后 依 此 状态 标签 ， 
训练 一 个 基于 DNN 训练 算法 的 DNN 模型 。 最 后 用 DNN 模型 替换 HMM 模型 中 计算 观 
察 概率 的 GMM 部 分 ,但 保留 转移 概率 和 初始 概率 等 其 他 部 分 。 

早期 的 DNN 一 般 采 用 前 馈 神 经 网 络 结构 ,其 本 质 上 是 一 个 包含 多 个 隐 层 的 多 层 感 知 
机 。 它 采用 层级 的 结构 ,分 为 输入 层 . 隐 层 和 输出 层 。 相 邻 层 的 神经 元 结 点 采用 全 连接 的 方 
式 ,而 在 同一 层 的 结 点 之 间 则 不 存在 连接 。 隐 层 神经 元 结 点 的 输出 (激活 值 ) 是 前 一 层 输 出 
问 量 和 当前 层 网 络 权重 的 线性 加 权 和 ,再 通过 非 线性 激活 函数 得 到 。 对 于 包含 工 个 隐 层 的 
DNN ,假设 其 输入 为 有 二 0,, 则 各 隐 层 的 输出 癌 量 及 可 如 下 计算 


a = Wh "lh, llL+1 (6-228) 
hk = fla), 1<l<L (6-229) 


其 中 W!' 和 6b 分别 表示 网 络 第 7 层 的 权重 和 偏 置 向 量 。f(，) 表 示 隐 层 结 点 的 非 线 性 激活 函 
数 。 传 统 的 DNN 普遍 采用 Sigmoid0O 〇 激活 函数 ,其 函数 表达 式 如 下 
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有 
] 十 e“” 

DNN 的 输出 层 通 第 采用 Softmax() 图 数 对 输入 观察 样本 的 后 验 概 率 分 布 进 行 建 模 , 其 
第 维 输出 为 


f(a) = (6-230) 


了 十 1 


y= In = = Se (6-231) 
DNN 的 优化 目标 函数 第 采用 最 小 交叉 入 (cross-entropy,; CE) 准 则 和 最 小 均 方 误差 
(mean square error, MSE) 准 则 等 。 在 请 音 识别 中 采用 CE 准则 更 加 普遍 , 它 可 以 表示 为 如 
下 的 优化 问题 
有 一 argmin | 一 > logyso | (6-232) 
0 i 


其 中 ,0 二 {W',b'|/ 二 1,2,…,L 十 1) ,表示 DNN 中 所 有 参数 的 集合 ,s(t) 是 声学 特征 向 量 o， 
所 对 应 的 HMM 状态 标签 。 该 优化 问题 是 高 维 且 非 凸 的 ,通常 采用 基于 随机 梯度 下 降 的 
BP 算法 来 进行 优化 。BP 算法 的 核心 思想 是 通过 链 式 求 导 法 则 ,计算 出 相对 于 目标 水 数 的 
每 层 输 出 的 反问 传播 误差 信号 ,然后 进一步 得 到 网 络 参 数 的 柳 度 。 

人 研究 发 现 , 对 上 述 神 经 网 络 采 用 BP 算法 百 接 进 行 训 练 往往 效 琳 不 佳 ,这 也 导致 了 时 期 
基于 ANN 的 混合 声学 模型 未 能 得 到 成 功 应 用 。 究 其 原因 在 于 : 了 多 层 神 经 网 络 参 数 优化 
是 一 个 高 维 非 凹 优化 问题 ,第 收敛 到 较 差 的 局 部 解 ,尤其 是 在 使 用 随机 初 妈 化 的 权重 参数 作 
为 学 习 起 点 的 情况 下 ,这 种 现象 表现 得 更 加 突出 ; 柳 度 消 失 问 题 。BP 算法 计算 出 的 误差 
会 从 输出 层 开始 回 下 呈 指 数 豪 减 , 这 样 计算 出 的 各 层 梯 度 也 会 随 着 这 度 的 变化 而 显 闭 下 降 ， 
导致 徘 近 输出 层 的 隐 层 能 够 训练 得 比较 好 ,而 靠近 输入 层 的 隐 层 则 几乎 不 能 得 到 有 效 训练 。 
为 此 ,研究 者 们 提出 了 若干 无 监督 的 逐 层 预 训练 算法 来 进行 网 络 参 数 的 初始 化 ,这 相当 于 在 
权重 参数 空间 寻找 一 个 相对 合理 的 点 来 作为 学 习 过 程 的 起 点 ,以 此 来 减少 算法 陷 人 局 部 最 
优 的 可 能 性 。 预 训练 步骤 完成 后 ,可 以 用 其 权重 参数 来 对 一 个 标准 前 馈 DNN 进行 初始 化 ， 
之 后 就 可 以 用 BP 算法 对 DNN 网 络 的 权重 参数 进行 精细 调整 。 这 样 的 预 训练 方法 包括 基 
于 深度 置信 网 (deep belief network ,DBN) 的 方法 和 基于 深度 有 目 编 码 兹 (auto-encoder, AE) 
神经 网 的 方法 等 。 下 面 我 们 来 介绍 一 下 这 两 种 方法 。 

1. 基于 DBN 的 预 训 练 方 法 

DBN 由 多 个 受 限 玻 尔 效 曼 机 (restricted boltzmann machines, RBM) 层 层 堆 闭 而 成 ,其 
主要 成 分 是 RBM。RBM 是 一 种 具有 特殊 结构 的 马尔 科 夫 随机 场 (markov random field， 
MRF) ,图 6-44 给 出 了 一 个 RBM 的 示意 图 。 它 是 一 个 包含 两 层 结 构 的 神经 网 络 , 分 别称 为 
显 层 (可 见 层 ) 和 隐 层 ,也 是 对 结构 进行 了 一 定 限 制 的 玻 尔 兹 曼 机 。 不 同 于 玻 尔 北 曼 机 中 有 所 
有 绪 点 两 网 之 加 存在 痢 对 称 连 接 的 网 络 绪 构 ,党 限 玻 泵 效 曼 机 的 对 称 连接 只 存在 于 显 层 绪 
上 忆 与 隧 层 结 点 之 间 , 而 在 显 层 结 点 和 隐 层 结 点 内 部 没有 任何 形式 的 连接 。 可 以 认为 层 间 是 
全 连接 的 , 层 内 是 无 连接 的 。 记 RBM 的 显 层 结 点 问 量 为 v= 二 [vi ,vo，,… ,vwj, 隐 层 结 点 问 量 
为 有 一 LA ja ,hyj, 其 中 ,V 和 互 分 别 表 示 显 层 和 隐 层 绪 上 点 的 数目 。 显 层 的 神经 元 结 点 
的 状态 由 输入 数据 决定 , 隐 层 的 状态 则 可 以 日 由 定义 ,其 数目 的 多 少 决 定 了 了 RBM 模型 的 复 
杂 程 度 。 隐 层 结 点 根据 抓 取 的 输入 问 量 中 的 高 阶 统 计 相 关 性 来 解释 和 发 现 其 所 包含 的 潜在 
规律 。 因 此 ,RBM 的 训练 可 以 被 视 为 一 个 无 监督 的 学 习 过 程 ,使 用 隐 变 量 来 描述 输入 数据 


的 分 布 ,而 在 这 一 过 程 中 并 没有 涉及 数据 的 标签 信息 。 


图 6-44 受 限 玻 尔 兹 曼 机 结构 示意 图 


RBM 作为 一 种 条 件 随机 场 , 每 个 神经 元 结 点 描述 了 一 个 随机 变量 的 分 布 情况 ,可 以 采 
用 高 斯 分 布 和 伯 努 利 分布 两 种 形式 ,对 语音 这 种 连续 变量 而 言 前 者 更 加 适合 。 借 鉴 分 子 热 
力学 中 的 能 量 理论 ,可 以 根据 各 状态 的 情况 为 RBM 和 定义 出 相应 的 能 量 呆 数 。 
对 伯 努 利 分 布 ,RBM 的 能 量 函 数 定义 为 
E(v,h;0)=— v' Wh—a'v—b'h 
二 一 Si hb, 3 > viwsh; (6=233) 
对 高 斯 分 布 ,RBM 的 能 量 函 数 定 义 为 
E(vh;0)= (oa (vwv—a)— vvWh—b'h 
= >》 vi—a)’ — Dhb;— > 2 vwsh, (6-234) 
其 中 ,RBM 模型 参数 为 8 二 {WW,a,b}),w; 表示 显 层 第 i 个 结 点 和 隐 层 第 j 个 结 点 之 间 的 权 
重 ,a; 和 和 6; 分别 代表 显 层 结 点 i 和 隐 层 结 点 j 的 偏 置 大 小 。 根 据 吉 布 斯 分 布 ,可 以 得 出 RBM 
选择 处 于 当前 状态 (v ,有 hh) 时 的 概率 为 


p(wv,h;0) = exp(— ECv,h;0 )) (6-235) 


Z= > exp(— E(v,h;0)) (6-236) 
VU nh 


这 个 概率 可 以 认为 是 显 层 状态 和 隐 层 状态 的 联合 概率 分 布 , 由 当前 状态 的 RBM 的 能 量 被 
所 有 可 能 状态 下 RBM 的 能 量 按 指数 规则 进行 规整 得 到 ,其 中 4() 是 配 分 图 数 , 它 是 将 所 有 
状态 下 RBM 的 能 量 都 考 碟 进来 的 一 个 规整 项 。 因 此 ,从 上 述 联合 分 布 可 以 导出 显 层 状态 
问 量 的 边 绿 分 布 : 


= i ECv,h;0)) (6-237) 
进而 可 以 推导 出 采用 伯 努 利 分 布 时 的 条 件 概 率 为 

Pl(h;=1|+v;0) = /Dw to] (6-238) 

Pl(vw=1|h;0) = A Du, ta (6-239) 


和 采用 高 斯 分 布 时 的 条 件 概 府 为 
Pl(h; =1| vO) = A > wv tb (6-240) 
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H : 
Pl, / h;0 ) 一 N( Dust + a1 | (6-241) 
j=1 | 


其 中 f(。) 是 Sigmoid 图 数 ,N(C。) 是 高 斯 图 数 。 

RBM 模型 参数 可 以 使 用 最 大 似 然 准则 来 进行 学 习 。 学 习 的 目标 是 使 得 RBM 显 层 状 
态 的 边缘 分 布 尽 可 能 地 接近 真实 的 数据 分 布 , 即 训练 过 程 中 需要 优化 的 目标 函数 是 输入 数 
据 的 似 然 值 。 优 化 问题 的 解 为 使 得 数据 似 然 值 最 大 的 参数 , 即 


0” 一 wp pied (6-242) 
然而 ,上 述 似 然 子 数 中 存在 看 配 分 函数 项 Z, 它 是 一 个 无 穷 项 的 求 和 ,是 6 的 复 洒 的 非 线 性 也 


数 , 无 法 简单 的 通过 解析 表达 式 来 表示 ,这 也 是 RBM ost 带 复 杂 的 原因 所 在 。 

在 RBM 的 训练 过 程 中 ,采用 梯度 下 降 的 方法 进行 迭代 优化 时 ,由 于 配 分 函数 项 的 存 
在 ,导致 无 法 准确 地 估计 出 当前 参数 下 的 梯度 值 ,因此 需要 对 梯度 进行 近似 。 可 以 推导 
式 (6-242) 的 参数 梯度 公式 为 


Axw; = Ey vhs) — Ewaat vih;) (6-243) 
Aa， -一 二 (vw ) 一 下 ) (0-244) 
Ab; = Eva (lh;) — Ea(h;) (06-245) 


其 中 ,Es(，) 是 训练 集中 观测 数据 的 期 望 , 它 是 可 以 计算 的 项 。 而 Ewwsa(。，) 则 是 在 模型 
所 确定 的 分 布 上 的 期 望 , 申 于 模型 的 分 布 无 法 得 知 , 因 此 它 只 能 近似 的 估计 ， 通常 采用 
Hinton 提出 的 基于 对 比 散 度 (contrastive divergence，CD) 的 快速 算法 来 近似 的 计算 。CD 
是 一 种 有 效 近 似 期 望 值 的 方法 ,本 质 上 是 一 种 基于 马尔 可 夫 链 去 特 卡 洛 (markov chain 
monte carlo，MCMC) 随 机 采样 理论 的 吉 布 斯 采样 方法 ,用 由 训练 数据 初始 化 的 吉 布 斯 采样 
种 来 代 蔡 Fwoaa(。，)。 经 党 被 采用 的 CD-1 算法 的 计算 步骤 如 下 : 

(1) 使 用 训练 数据 初始 化 v。; 

(2) 采样 ho 一 P(h| vo ;0 ); 

(3) 采样 v1 一 PC(v|ho ;6 ); 

(4) 采样 h~~P(h| vi;0) 

而 (vi ,hi) 就 被 认为 是 从 模型 中 采样 得 到 , 它 是 对 Ewaa(，) 的 一 个 粗略 估计 。 

DBN 是 采用 贪心 的 和 逐 层 训 练 过 程 扒 登 RBM 得 到 的 。 在 按照 上 述 方 法 训练 完 一 个 
RBM 后 ,把 学 习 得 到 的 权重 固定 住 ,将 该 RBM 的 隐 层 状态 作为 男 一 个 RBM 的 输入 数据 ， 
从 而 可 以 训练 得 到 一 个 新 的 隐 层 。 这 个 过 程 重 复 多 次 ,就 可 堆 全 成 一 个 多 层 的 产生 式 DBN 
模型 。 构 成 DBN 后 ,在 最 上 一 层 的 后 面 增加 一 个 Softmax 输出 层 , 就 能 构成 一 个 日 下 而 上 
的 前 馈 深 层 , 有 旦 具有 区 分 性 的 DNN 网 络 。 同 时 其 连接 权重 已 经 由 RBM 预 训练 过 程 得 到 。 

2. 基于 深度 自 编码 器 神经 网 的 预 训练 方法 

深度 日 编 公 问 神 经 网 也 是 em 与 输入 回 量 同 维 ,训练 的 目标 是 
使 其 目标 值 等 于 输入 值 , 即 符 试 通 近 一 个 恒 等 困 数 。 这 样 加 可 以 将 其 隐 层 激活 值 看 作为 对 
原始 效 据 的 压缩 表示 或 有 歼 编 全 。 通 第 也 及 用 逐 层 贫 榴 训练 法 来 训练 诛 度 目 编码 天 神经 
网 。 每 次 采用 基于 随机 梯度 下 降 的 BP 算法 来 训练 仅 一 个 隐 层 的 日 编码 冀 神 经 网 ,然后 将 
其 堆 梧 在 一 起 构成 这 度 网 络 。 这 样 的 闪 度 上 月 编 但 天 网 络 也 被 称 为 栈 式 上 月 编 权 着 神经 网 络 。 
其 训练 过 程 如 下 : 先 利 用 原始 输入 数据 训练 一 个 单 隐 层 目 编 码 珊 网络, 学习 其 权重 参数 ,从 
而 得 到 第 一 个 隐 层 。 然 后 将 其 隐 层 神经 元 激活 值 组 成 的 加 量 作为 输入 ,继续 训练 一 个 新 的 
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单 隐 层 月 编码 器 网 络 , 从 而 得 到 第 二 个 隐 层 及 其 权重 参数 ,以 此 类 推 。 同 样 ,最 后 增加 一 个 
Softmax 层 作 为 输出 。 这 样 也 能 构成 一 个 自 下 而 上 的 前 僻 深 层 且 具有 区 分 性 的 DNN, 并 能 
得 到 其 网 络 参数 的 一 个 有 效 初 值 ,可 以 对 其 进行 进一步 的 基于 BP 算法 的 有 监督 的 精 调 
训练 。 

对 DNN 首先 进行 无 监督 的 预 训练 ,然后 进行 有 监督 的 调整 是 DNN-HMM 声学 模型 能 
够 成 功 应 用 于 语音 识别 任务 ,并 在 性 能 上 超越 GMM-HMM 的 主要 原因 之 一 。 无 监督 预 训 
练 避 饭 了 有 监督 训练 时 和 常常 过 拟 合 于 泛 化 能 力 很 差 的 局 部 极 值 点 的 问题 ,而 逐 层 的 贪 禁 训 
练 弥 补 了 梯度 消失 问题 市 来 的 影响 。 然 而 深度 学 习 技 术 发 展 迅 猛 , 从 近年 的 人 研究 进展 看 , 预 
训练 的 重要 性 日 益 降低 ,原因 大 致 有 以 下 几 点 : 岂 使 用 海量 数据 进行 训练 能 有 效 避 人 免 过 拟 
合 问 题 ,Droponut 等 随机 优化 算法 的 出 现 , 也 极 大 提高 了 DNN 模型 的 泛 化 能 力 ; @@ 采 用 整 
流 线 性 单元 (rectified linear units，ReLU) 作 为 激活 函数 ,以 及 采用 卷 积 神经 网 络 
(convolutional neural networks,CNN), 这 种 深度 网 络 结 构 也 成 功 地 减 小 了 梯度 消失 问题 
的 影响 。 下 面 将 简要 介绍 一 下 ReLU 和 CNN。 

1] ) ReLU 

相关 的 研究 表明 ,采用 基于 ReLU() 激 活 图 数 的 DNN 与 采用 基于 Sigmoid() 激 活 哺 数 
的 DNN 相 比 ,不仅 可 以 获得 更 好 的 性 能 ,而 且 不 需要 进行 预 训练 ,可 以 直接 采用 随机 初始 
化 。 其 本 数 表达 式 如 下 : 

fla) = max(0,a) (6-246) 

2) CNN 

近年 的 研究 显示 ,基于 CNN 的 语音 声学 模型 与 传统 DNN 的 模型 相 比 ,可 以 获得 更 好 
的 性 能 , 究 其 原因 在 于 : DCNN 具有 局 部 连接 和 权重 共享 的 特点 ,以 及 很 好 的 平移 不 变性 。 
因而 将 卷 积 神经 网 络 的 思想 应 用 到 语音 识别 的 声学 建 模 中 ,就 可 以 利用 卷 积 的 不 变性 来 克 
服 语音 信号 本 身 的 多 样 性 ,如 说 话 人 的 多 样 性 (说 话 人 自身 及 说 话 人 间 ) ,环境 的 多 样 性 等 ， 
从 而 增强 声学 模型 的 项 健 性 。 凶 CNN 也 是 一 个 更 适合 对 大 数据 进行 建 模 的 深度 网 络 结构 ， 
尤其 是 近 几 年 来 ,以 ResNet 和 Highway 网 络 为 代表 的 深度 CNN 的 人 研究 工作 ,对 语音 识别 
的 研究 起 到 了 很 好 的 促进 作用 。 

CNN 是 一 种 经 典 的 前 馈 神 经 网 络 , 是 受 生物 学 上 感受 野 机 制 启 发 而 来 。 它 本 质 上 是 一 
种 基于 有 监督 学 习 的 数学 模型 ,由 多 个 卷 积 屋 和 池 化 层 交 蔡 出 现 构成 整个 网 络 的 前 端 ,用 于 
特征 提取 和 表示 ,在 后 端 由 多 个 全 连接 层 用 于 对 提取 到 的 局 部 特征 进行 全 局 上 的 整合 与 变 
换 。 网 络 的 最 终 输出 会 根据 任务 的 不 同 而 动态 调整 。 与 传统 的 DNN 网 络 结 构 相 比 ,CNN 
能 够 从 大 量 的 训练 数据 中 提取 有 效 且 这 化 能 力 强 的 特征 ,因而 非常 适合 于 分 类 任务 。 

一 个 典型 的 CNN 网 络 结构 如 图 6-45 所 示 ,其 中 卷 积 层 是 整个 网 络 最 为 核心 的 部 分 , 它 
通过 卷 积 核对 输入 进行 卷 积 操作 以 获取 输出 。 这 里 可 以 将 卷 积 操作 理解 为 线性 加 权 运 算 ， 
卷 积 层 的 输出 称 之 为 特征 图 。 一 般 会 采用 多 个 卷 积 核 来 学 习 不 同 层次 的 特征 ,这 样 便 会 得 
到 多 个 特征 图 。 不 同 于 全 连接 网 络 , 卷 积 层 的 卷 积 核 只 会 与 输入 中 的 某 些 局 部 区 域 相连 接 ， 
这 样 不 仅 能 有 效 降 低 网 络 的 连接 数量 ,而 且 也 可 以 获取 丰富 的 局 部 结构 化 特征 。 此 外 ,同一 
层 之 间 相 同 的 卷 积 核 会 共享 参数 ,这 进一步 降低 了 需要 训练 的 网 络 参 数 的 规模 。 在 卷 积 层 ， 
特征 图 也 要 通过 激活 函数 进行 非 线 性 处 理 , 在 CNN 中 一 般 也 采用 ReLU 作为 激活 函数 。 

池 化 层 又 称 为 下 采样 层 , 它 主要 对 上 一 层 得 到 的 特征 图 进行 压缩 。 在 实际 应 用 中 以 最 
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巷 积 池 化 苍 积 池 化 全 连接 
图 6-45 ”CNN 网 络 结构 示意 图 


大 池 化 Cmax-pooling) 和 均匀 池 化 (average-pooling) 最 为 常见 。 最 大 池 化 会 对 池 化 域内 的 特 
征 点 取 最 大 值 ,而 均匀 池 化 则 对 池 化 域内 的 特征 点 取 平 均值 。 池 化 操作 不 仅 能 显 者 压缩 数 
据 规 模 ,减少 训练 参数 ,更 重要 的 是 它 能 使 网 络 获 得 某 种 不 变性 ,以 增强 上 和 目 身 的 闫 健 性 。 就 
语音 识别 而 言 , 它 能 够 使 识别 系统 对 因 陈 声 市 来 的 频率 但 移 ,以 及 不 同 说 话 方式 市 来 的 平移 
有 一 定 的 容 钳 能力 。 

全 连接 层 就 是 普通 的 前 包 网 。CNN 在 完成 卷 积 或 者 池 化 后 一 般 需 要 接 入 全 连接 层 , 但 
在 此 之 前 需要 完成 光栅 化 操作 。 所 谓 光 栅 化 是 指 将 最 后 输出 的 特征 图 依次 展开 ,重新 构造 
成 一 个 特征 回 量 。 全 连接 层 能 够 将 卷 积 和 池 化 操作 后 提取 到 的 局 部 特征 在 更 高 的 维度 上 进 
行 全 局 的 信息 整合 。 

CNN 也 是 一 种 前 馈 神 经 网 络 , 它 的 训练 算法 也 是 基于 链 式 法 则 求 梯度 ,然后 用 随机 榜 
度 下 降 方法 求 优 。 计 算 梯 度 的 过 程 与 传统 的 BP 算法 十 分 类 似 , 即 首先 前 向 计算 误差 项 , 然 
后 再 进行 误差 的 反 回 传播 。 只 不 过 申 于 池 化 层 通 过 下 采样 操作 对 输入 数据 进行 了 压缩 , 因 
此 需要 在 误差 的 反问 传播 过 程 中 ,采用 上 采样 隐 数 将 误差 矩阵 还 原 至 压缩 之 前 ,并 重新 对 误 
直 进 秆 分配。 


6.10.2 基于 RNN 的 语音 识别 技术 


语音 信号 是 一 种 非 平稳 的 时 序 信 号 ,对 其 长 时 时 序 动态 相关 性 进行 有 效 的 建 模 至 关 重 
要 。 对 基于 DNN-HMM 的 语音 识别 系统 而 言 ,其 声学 模型 是 DNN 和 HMM 的 混合 ,DNN 
仅 能 静态 的 计算 各 语音 帧 声学 特征 的 观察 概率 ,因而 仍旧 需要 依赖 HMM 中 的 转移 概率 和 矩 
阵 ,来 对 语音 信号 中 的 动态 时 序 信息 进行 评价 和 估计 。 只 有 将 这 两 种 由 不 同 训练 方法 得 到 
的 模型 结合 在 一 起 ,才能 完成 语音 识别 任务 。 因 此 ,对 语音 识别 任务 而 言 ,能 对 上 述 两 方面 
言 息 直接 建 模 的 方法 极 具 吸引 力 。RNN 就 是 一 种 能 够 满足 这 种 需求 的 深度 网 络 模 型 ,如 
图 6-46 所 示 。 

RNN 在 隐 层 上 增加 了 一 个 反馈 连接 ,也 就 是 说 ,RNN 隐 层 神经 元 当前 时 刻 的 输入 有 一 
部 分 是 该 隐 层 的 前 一 时 刻 的 输出 向 量 , 使 得 RNN 可 以 通过 这 些 循环 反馈 连接 “看 ?到 前 面 
所 有 时 刻 的 信息 ,这 就 赋予 RNN 记忆 的 功能 。RNN 的 这 些 特 点 ,使 其 非常 适合 于 对 时 
序 信号 进行 建 模 。 在 RNN 中 , 隐 层 的 第 ;个 神经 元 在 上 时 刻 的 输出 hi 可 以 依照 如 下 公式 
计算 : 


了 
对 = wiz’ > wh (6-247) 


输出 层 


6-46 RNN 网 络 结构 示意 图 


大 = 冯 o (6-248) 
式 中 ,zi; 为 1 时 刻 输入 回 量 的 第 7 维 , 可 以 是 语音 特征 回 量 ,也 可 以 来 月 网 络 前 一 层 的 输出 ， 
即 RNN 的 隐 层 之 前 可 以 是 其 他 网 络 层 ,如 DNN CNN 或 RNN 的 网 络 层 等 。w; 为 隐 层 第 
i 个 神经 元 与 输入 层 ( 前 层 ) 第 j 个 神经 元 间 的 连接 权重 ,而 wi 是 隐 层 第 i 个 神经 元 与 前 一 
时 刻本 层 第 有 个 神经 元 加 的 连接 权重 。 天 是 隐 层 神经 元 的 数量 ,J 汪 是 输入 层 ( 前 层 ) 神 经 元 
的 数量 。 在 RNN 中 ,激活 图 数 筑 采用 tanh 图 数 。 
RNN 训练 采用 的 是 延 时 间 展 开 的 反 回 传播 算法 (back propagation through time， 
BPTT) ,其 中 仅 误 差 项 反 回 传播 的 递 推 公 式 与 BP 算法 有 差异 ,具体 表示 如 下 : 


> J | 
0i 一 ro 2 divws 十 >a] (6-249) 
| ] 


N 是 输出 层 ( 后 层 ) 神 经 元 的 数量 。 

基于 RNN 的 声学 模型 可 以 有 多 个 隐 层 ,也 可 以 包含 CNN 层 或 全 连接 层 。 网 络 输入 同 
样 采 用 拼接 帧 的 声学 特征 ,网 络 输出 也 多 采用 与 triphone 状态 一 一 对 应 的 输出 回 量 的 形 
式 。 即 RNN 在 考虑 上 下 文 信息 的 条 件 下 ,计算 当前 帧 属于 各 triphone 状态 的 后 验 概 率 得 
分 。 在 这 一 框架 下 ,尽管 已 经 不 依赖 HMM 模型 中 的 任何 参数 来 参与 计算 ,但 仍然 需 
Viterbi 解码 算法 和 语言 模型 等 来 完成 语音 识别 任务 。 这 样 ,在 实现 基于 RNN 的 语音 识别 
系统 时 ,可 以 直接 利用 基于 GMM-HMM 或 DNN-HMM 的 语音 识别 系统 中 的 许多 模块 。 
因此 ,这 种 语音 识别 技术 有 时 也 被 称 之 为 RNN-HMM 识别 技术 。 训 练 时 同样 依赖 于 
GMM-HMM 声学 模型 上 的 强制 对 齐 来 获得 标注 信息 。 

BPTT 算法 的 代码 易于 编写 ,相对 BP 算法 仅 有 较 小 的 改动 。 然 而 从 式 (6-249) 可 以 看 
出 ,误差 的 反 回 传播 不 仅 随 网 络 这 度 从 后 回 前 展开 ,而 且 也 沿 时 间 斥 度 从 后 回 前 展开 。 如 宁 
输入 的 时 间 序 列 比 较 长 , 则 难免 存在 梯度 消失 现象 , 即 RNN 不 能 非常 好 的 对 长 时 信息 进行 
建 模 。 因 而 在 语 首 识别 钱 究 中 , 普 所 采用 的 是 其 改进 模型 , 即 长 短 时 记忆 单元 (long-short 
term memory，LSTM) 神 经 网 络 。 它 将 传统 的 RNN 网 络 中 的 隐 层 神经 元 和 蔡 换 为 图 6-47 所 
示 的 LSTM 记忆 块 (Block), 这 样 就 得 到 了 LSTM 神经 网 络 。 此 时 ,LSTM 网 络 的 隐 层 神 
经 元 的 输出 ,不 青 是 由 输入 信号 的 加 权 求 和 由 使 用 激活 哨 数 计算 得 到 ,而 是 使 用 LSTM 记 
忆 块 来 代替 这 一 部 分 功能 。 记 忆 块 中 包含 记忆 细胞 (cell) 、 忘记 门 (forget gate)、 输 入 门 
(input gate) 和 输出 门 Coutput gate) 四 部 分 。 其 中 记忆 细胞 用 来 保存 神经 元 曾经 得 到 的 有 
用 的 历史 信息 , 它 是 LSTM 记忆 块 的 核心 肉 容 , 前 一 时 刻 的 记忆 细胞 的 输出 和 前 一 时 刻 的 
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障 层 输出 一 起 影响 下 一 时 刻 记忆 块 的 记忆 和 输出 。 起 记 门 用 来 去 除 在 记忆 细胞 中 保留 的 无 
用 信息 ,输入 门 用 来 决定 哪些 新 的 信息 可 以 在 记忆 细胞 中 保存 ,这 两 个 控制 闻 置 控制 了 记忆 
注 时 间 加 后 传递 的 情况 。 输 出 门 控制 如 何 根据 当前 的 细胞 状态 进行 记忆 块 的 输出 。 


得 人 | 


图 6-47 LSTM 记忆 块 结 构 示 意图 


隐 层 中 第 i 个 LSTM 记忆 块 的 输入 门 的 输出 为 


di 一 ed 十 入 人 十 as 人 (6-250) 
Ed $1 
下 = f(2) (6-251) 
隐 层 中 第 i 个 LSTM 记忆 块 的 忘记 门 的 输出 为 
i 一 i 十 waht! 二 Ws! (6-252) 
pe t=1 
六 = f(A:) (6-253) 


即 这 两 个 门 的 输出 都 由 当前 的 输入 zi、 前 一 时 刻 各 记忆 块 输出 hi ”和 前 一 时 刻本 记忆 块 的 
记忆 细胞 输出 si” 决定。 激活 负数 第 采用 Sigmoid() 图 数 。 
记忆 单元 的 输出 计算 如 下 


st = Pg (a!) + bist! (6-254) 
g(。) 一 般 采 用 tanh(C) 图 数 , 其 中 输入 ai 为 
a! 一 Su 十 世态 生 1 (6-255) 
而 记忆 块 输出 门 的 输出 为 
at 一 ed > uht! + wus’ (6-256) 


oF) (6-257) 
最 后 ,由 输出 门 控制 记忆 细胞 的 输出 以 产生 整个 LSTM 记忆 体 的 输出 值 
天 = bih (st) (6-258) 


h(。) 一 般 也 来 用 tanh() 图 数 。 

LSTM 是 单 回 的 ,只 能 利用 历史 信息 对 当前 时 刻 进行 建 模 , 和 而 不 能 将 未 来 信息 引入 进 
来 。 为 了 解决 这 一 回 题 ,人 研究 者 也 提出 了 双 癌 LSTM (bidirectional long short term 
memory,BLSTM) 。BLSTM 的 记忆 细胞 结构 与 LSTM 完全 相同 ,但 在 同一 层 内 使 用 两 答 
连接 权重 矩阵 分 别 来 对 正 问 和 反问 信息 进行 建 模 。 研 究 表 明 , 基 于 双 同 LSTM 声学 模型 的 
语音 识别 系统 与 基于 DNN 的 系统 相 比 ,相对 性 能 能 获得 超过 20% 的 提升 。 然 而 ,采用 双 问 
LSTM 声学 模型 也 有 一 定 的 限制 , 它 必须 要 等 到 语 首 结束 后 才能 应 用 过 去 和 未 来 的 信息 来 
进行 识别 解码 ,这 无 疑 会 市 来 一 定 的 时 间 延 返 ,因而 对 要 求实 时 啊 应 的 在 线 语 音 识 别 任 务 并 
不 适用 。 它 更 适合 处 理 离线 任务 。 人 研究 者 们 也 结合 CNN、DNN 和 LSTM 各 日 的 优点 , 提 
出 了 CLDNN(convolutional, LSTM, deep neural network) 结 构 用 于 语音 的 声学 建 模 , 例 
如 一 个 简单 常用 的 CLDNN 网 络 结构 是 由 2 层 CNN, 加 上 1 层 LSTM, 青 加 上 2 层 全 连接 
层 构成 。 


6.10.3 端 到 端的 语音 识别 技术 


本 书 前 面 已 介绍 的 语 首 识别 系统 均 由 多 个 模块 组 成 ,一 般 包 括 声 学 模型 (可 以 是 
GMM-HMM、DNN-HMM.、CNN-HMM.、LSTM-HMM 和 CLDNN 等 )、 发 音 词典 ,语言 模 
型 和 解码 模块 等 。 其 中 声学 模型 和 语言 模型 需要 分 别 独立 训练 得 到 ,它们 各 目 有 不 同 的 目 
标 沙 数 。 

近年 来 ,人 研究 者 正在 探索 端 到 端的 语音 识别 技术 , 它 试 图 用 一 个 神经 网 络 来 水 担 原 来 所 
有 模块 的 功能 。 这 样 ,系统 中 将 不 再 有 多 个 独立 的 模块 ,而 仅 通过 神经 网 络 来 实现 从 输入 端 
(语音 波形 或 特征 序列 ) 到 输出 端 ( 单 词 . 首 率 或 字符 的 序列 ) 的 下 接 映射 。 端 到 端的 识别 技 
术 能 有 效 减 少 人 工 预 处 理 和 后 续 人 处理, 避免 了 分 阶段 学 习 问 题 ,能 给 模型 提供 更 多 的 基于 数 
据 驱 动 的 目 动 调 闻 空间 ,从 而 有 助 于 提高 模型 的 整体 契合 度 。 

问 到 端的 语音 识别 技术 有 基于 连接 主义 时 间 分 类 和 需 (connectionist temporal 
classification;CTC) 的 方法 和 基于 编码 希 和 解码 善 (Cencoder-decoder) 模 型 以 及 注意 
(attention) 模 型 的 方法 等 。 下 面 简要 介绍 一 下 基于 CTC 的 端 到 端 语音 识别 技术 。 

CTC 基于 RNN 实现 ,是 一 种 改进 的 RNN 模型 。 从 上 面 的 介绍 可 知 ,RNN 模型 可 以 
用 来 对 两 个 序列 之 间 的 映射 关系 进行 建 模 。 在 传统 的 RNN 中 ,标注 序列 和 输入 序列 必须 
是 一 一 对 应 的 。 然 而 ,语音 识别 研究 中 的 序列 建 模 问题 并 非 如 此 。 事 先知 道 各 语音 段 的 字 
符 序列 或 者 音素 序列 ,但 它们 与 输入 特征 序列 间 的 对 齐 关 系 并 不 确定 。 而 且 ,一般 字 符 序列 
或 者 音素 序列 的 长 度 要 远 小 于 输入 的 帧 序列 的 长 度 。 因 此 对 语音 识别 而 言 , 如 果 不 通过 强 
制 对 齐 方 法 来 额外 的 估计 两 者 间 的 对 应 关系 ,就 不 能 用 RNN 来 建 模 。CTC 提出 了 解决 此 
问题 的 男 一 种 思路 ,可 以 自动 且 端 到 端的 同时 优化 模型 参数 和 对 齐 切 分 边界 。CTC 在 标注 
符号 集中 加 了 一 个 空 日 符号 (blank), 它 意味 者 此 帆 没 有 预测 值 输出 。 因 而 在 基于 CTC 的 
RNN 模型 的 预测 输出 中 ,可 能 包含 许多 空 日 从 号。 如 图 6-48 所 示 , 传统 的 头巾 
(framewise) 训 练 需要 进行 语音 和 音素 发 音 的 对 齐 , 例 如 音素 “s” 对 应 的 一 整 段 语音 的 标注 
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都 是 s; 而 CTC 引入 了 空白 符号 后 ,“s” 对 应 的 一 整 段 语音 中 只 有 一 个 尖峰 被 识别 器 确认 为 
s, 其 他 的 都 被 识别 为 空白 。 对 于 一 段 语 音 ,CTC 最 后 的 输出 是 一 种 尖峰 的 序列 , 它 并 不 关 
心 每 一 个 音素 对 应 的 时 间 长 度 。 


:语音 波形 


逐 帧 对 齐 


"the" "sound" "of " 


图 6-48 CTC 音素 符号 对 齐 示意 图 


识别 时 ,在 RNN 的 概率 最 大 的 输出 中 把 空 日 从 号 和 连续 出 现 的 重复 符号 消除 ,就 能 得 
到 最 终 的 预测 符号 序列 。 例 如 ,如 果 RNN 的 输出 为 *--a-bb”, 其 对 应 的 最 终 预 测序 列 应 为 
“和 

训练 时 ,对 给 定 的 标注 序列 , 自 先 宕 要 在 各 个 字符 间 插 入 空 日 从 号 或 进行 御 号 重复 以 在 
长 度 上 对 齐 输 入 的 帧 序列 。 经 过 这 样 变形 后 的 序列 有 很 多 ,所 以 需要 引入 前 问 后 问 算法 
(forward-backward algorithm) ,利用 动态 规划 思想 将 所 有 可 能 的 变形 序列 都 穷人 举 出 来 进行 
概率 求 和 。 最 后 用 其 对 数 似 然 进行 最 大 似 然 估计 。 


6.11 关键 词 检 出 技术 


前 面 涉及 的 语音 识别 技术 往往 是 指 说 话 人 只 讲 词 表 以 内 的 词 , 即 所 说 的 词 都 是 系统 已 
到 的 。 如 果 话 语 中 还 包括 许多 其 他 词 , 以 及 各 种 非 话语 的 咳 喇 再 、 呼 吸 再 、 关 门 声 、 首 泉 声 、 
多 人 共 语 声 , 则 采用 语音 识别 技术 把 需要 的 词 从 包含 它 的 连续 语句 中 提取 出 来 ,这 种 技术 就 
称 为 关键 词 检 出 (keyword spotting) 或 词 检 出 技术 。 这 种 非 受 限 语 首 信 号 处 理 系 统 允 许 用 
户 采 用 上 自然 的 说 话 方式 ,而 不 必 拘 泥 于 严格 的 语法 规定 。 

关键 词 检 出 技术 近年 来 受到 了 广泛 的 重视 ,很 多 应 用 领域 需要 这 种 技术 。 

(1) 电话 接听 : 在 一 些 信用 卡 认证 、 代 和 蔡 接线 员 转 接 等 类 型 的 任务 中 ,机 融 只 要 根据 少 
量 的 关键 词 ,就 可 以 判断 出 要 执行 的 任务 。 

(2) 监听 : 从 两 个 人 或 多 个 人 的 交谈 中 检 出 一 些 关 键 词 ,这 些 词 一 般 会 在 谈话 中 多 次 
出 现 , 军 事 上 这 类 录音 资料 往往 很 多 ,用 机 器 完成 关键 词 检 出 很 有 必要 ， 

(3) 口语 识别 系统 : 一 般 的 语音 录 人 系统 要 求 说 话 人 用 明 读 的 方式 发 音 , 一 旦 说 话 人 
没有 手稿 的 情况 下 ,就 不 由 自主 地 采用 较 自 然 的 方式 ,中 间 会 夹杂 一 些 词 表 中 未 包含 的 词 ， 
或 说 的 含混 不 清 的 词 ,谈话 过 程 中 不 可 避免 地 会 出 现 一 些 停 顿 、 文 召 .思考 语 .省略 等 口语 现 
象 。 这 时 可 以 将 词 表 中 的 词 作 为 关键 词 ,而 将 额外 的 词 和 不 能 辨认 的 词 作 为 多 余 语 音 进 行 
拒 识 。 

用 传统 的 语音 识别 需 处 理 口 语 语 音 有 很 多 难点 ,首先 为 了 能 处 理 口语 特征 的 语音 ,要 有 


一 个 非常 庞大 的 词 表 ,其 次 是 不 能 对 语言 模型 加 太 多 的 约束 ,以 便 能 处 理 上 自然 化 的 口语 中 不 
合 语法 的 特殊 现象 。 近 年 的 研究 表明 ,采用 关键 词 检 出 拉 术 是 一 种 很 好 的 选择 。 与 传统 的 
识别 系统 相 比 ,关键 词 检 出 系统 并 不 要 求 给 出 语音 名 于 中 有 所 有 词 的 精确 的 识别 结果 ,只 识别 
出 一 个 语句 中 与 便 义 解释 关系 最 密切 的 那些 单词 即 可 。 在 句子 中 ,与 请 义 关 系 最 密切 的 所 
有 单词 的 集合 可 以 预先 定义 好 ,它们 构成 了 天 键 词 识别 系统 的 “ 词 表 ”。 在 关键 词 检 出 系统 
的 框 染 下 , 语 首 识别 副 只 抽取 有 语义 意义 的 信息 段 ,而 忽略 其 他 不 重要 的 语音 段 , 不 要 求 办 
入 语句 的 证 细 细 市 ,语义 内 容 就 可 以 由 会 话 系 统 人 处理 。 
(4) 信息 查 词 系统 : 束 一 个 信息 查询 系统 而 言 ,系统 的 性 能 主要 由 两 方面 的 因 系 决定 ， 
是 灵活 的 会 话 采 略 ,二 是 声音 识别 大 的 性 能 。 这 两 个 因 系 其 实 是 一 对 玫 届 关系 : 一 方面 ， 
如 采 一 个 非 浓 灵活 的 会 话 梨 略 能 接 党 用 户 的 目 然 声言 口语 声名 、 人 允许 很 大 的 词 表 、 人 允许 复杂 
的 语法 结构 等 , 则 其 语音 识别 天 的 搜索 空间 将 加 大 、 识 列 时 间 将 变 长 .识别 的 精度 也 将 下 降 ， 
整个 识别 的 难度 也 会 随 之 增 大 ; 为 一 方面 , 米 用 系统 驱动 (system-driven) 的 会 话 上 荣 略 能 保 
证 足够 的 声音 识别 性 能 ,但 是 人 机 通信 的 卓然 性 会 大 大 下 降 ,完成 一 个 简单 的 人 机 会 话 任 务 
可 能 需要 许多 交互 过 程 。 因 此 在 信息 查询 任务 稍微 复杂 的 情况 下 ,后 者 并 不 是 很 合适 的 解 
决 办 法 。 


6.11.1 问题 描述 


关键 词 检 出 问题 就 是 要 在 非 受 限 语音 信号 中 ,检索 和 识别 出 词 表 中 包含 的 “关键 词 ”, 拒 
绝 词 表 外 的 “ 非 关 键 词 ”, 对 语 首 内 容 加 以 理解 。 设 已 知 一 观察 值 序 列 0 二 01 ,os ,… ,or , 判 
断 其 是 否 存 在 一 关键 词 M, 其 HMM 模型 所 包含 的 状态 为 {qi ,…,gn), 可 采用 如 下 方法 来 
计算 在 语音 中 存在 关键 词 M 的 评分 SCM|O) 


i = 
SC™M ) 守 MInN 一 一 一 -一 一 一 
TU 


a 
EE 
式 中 ,2 为 关键 词 在 声音 中 的 最 佳 起 始点 ,e ”为 最 佳 结束 点 ,Q ”为 与 之 相对 应 的 关键 词 M 
的 最 佳 状态 序列 。 即 在 判断 是 否 存 在 关键 词 M 时 ,首先 在 语音 中 找到 与 该 关键 词 最 匹配 的 
语 首 段 ,然后 用 该 关键 词 在 该 语音 段 上 经 长 度 归 正 后 的 后 验 概率 值 作为 评分 来 判断 关键 词 
存在 与 否 。b”、e” 和 Q* 可 按 下 式 求 得 


logP(Q | 0O7 ) 


logP(Q* | 0 ) (6-259) 


| | op ] (6-260) 

根据 前 面 的 知识 ,我们 知道 , 奢 起 始点 0” 和 结束 点 e 已 知 , 可 以 用 Viterbi 算法 求 出 最 
佳 状态 链 Q” 二 (gq,,…,g.}。 因 此 , 奢 穷 从 所 有 可 能 的 起 怒 点 5 和 结束 点 e, 并 根据 式 (6-259) 和 
式 (6-260) 必 然 可 以 求 出 SCM1O) ,根据 SCM10O0) 的 值 来 判断 是 否 存 在 关键 词 M。 

当然 ,用 穷 举 的 方法 来 求 取 起 娘 点 5 和 结束 点 e 计算 量 非常 大 ,在 实际 使 用 时 根本 无 法 
实现 。 因 此 往往 采用 在 一 次 搜 逐 过程 同时 确定 6” 、e” 和 Q-” 的 方法 , 即 在 观察 序列 O 上 通 
过 引入 垃圾 状态 go 定义 关键 词 的 扩充 模型 M。 它 所 包含 的 状态 为 {gc ,qi ，… ,gn gc) ,用 垃 
圾 状态 gc 表示 非 关 键 词语 音 。 使 用 扩充 模型 在 整个 观察 序列 上 用 Viterbi 算法 进行 搜索 ， 
可 以 得 到 对 应 O 的 最 佳 状态 序列 : 


CQ” 0” ,e” } = argmin 
【和 se 
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-Re < i 
Q= 1ge， gc gq" ge qe""* ,gq61 

根据 这 一 状态 序列 就 可 以 同时 确定 56” 、e* 和 Q”。 显 而 易 见 ,进行 这 样 搜 索 的 关键 是 如 
何 表 示 垃 圾 状态 ge, 即 确定 如 下 内 容 : 

(1) 使 用 多 少 个 垃圾 状态 ; 

(2) 如 何 确定 P(gc1o,); 

(3) 如 何 确定 P(gslgc) 和 P(gc|g,); 

(4) 在 有 多 个 垃圾 状态 时 ,垃圾 状态 间 的 转移 概率 。 

从 整个 词 表 的 角度 而 言 , 关 键 词 检 出 系统 必须 要 有 一 种 能 处 理 词 表 外 词 (out-of- 
vocabulary,OOV) 的 机 制 。 即 不 仅 要 为 词 表 内 词 建 立 对 应 的 声学 模型 ,对 词 表 外 的 词 也 需 
要 建立 处 理 它 们 的 声学 模型 。 目 前 ,用 HMM 对 无 限制 语音 进行 关键 词 检 出 的 研究 已 经 获 
得 了 很 大 的 进步 ,在 词 表 外 词 的 处 理 上 ,大 部 分 研究 者 采用 的 是 垃圾 (garbage) 模 型 方法 。 
通过 引入 垃圾 模型 来 表示 词 表 外 词 和 背景 语 首 ,以 增强 系统 对 词 表 内 词 和 词 表 外 词 背景 语 
音 间 的 区 分 能 力 。 所 谓 背 景 声音 主要 指 静 音 或 传输 噪声 等 。 根 据 具体 的 应 用 环境 ,系统 中 
的 垃圾 模型 可 以 是 一 个 或 多 个 ,也 可 以 采用 在 线 垃圾 模型 方法 ,在 线 地 计算 每 个 时 刻 的 垃 专 
评分 。 垃 圾 模型 可 以 使 用 大 量 的 词 表 外 词 和 背景 声音 ,基于 最 大 似 然 方法 训练 得 到 ,也 可 以 
由 关键 词 的 一 部 分 或 关键 词 状 态 的 加 权 分 布 来 构建 。 在 识别 时 ,L 个 关键 词 模型 和 VV 个 垃 
圾 模型 就 组 成 十 V 个 词汇 的 语音 识别 系统 ,可 以 采用 一 般 的 语音 识别 技术 进行 关键 词 识 
别 。 将 待 检 语 音标 注 为 由 关键 词 和 非 关 键 词组 成 的 词 串 ,根据 每 个 关键 词 的 评分 SCM|O) 
来 判断 关键 词 是 否 存 在 。 此 外 ,还 可 以 在 关键 词 检 出 系统 中 引入 反 关 键 词 (anti-keyword) 
模型 ,训练 时 为 每 一 个 关键 词 部 建立 一 个 反 关 键 词 模 型 , 它 可 以 用 系统 词 表 中 际 关 键 词 外 的 
所 有 词 ,基于 最 大 似 然 方法 训练 得 到 。 通 过 引入 反 关 键 词 模型 增加 了 关键 词 间 的 区 分 能 力 。 

关键 词 检 出 系统 中 的 错误 可 能 有 以 下 三 种 情况 : 中 将 不 含有 关键 词 的 语音 段 判 定 为 合 
有 某 个 关键 词 ; 包 将 一 个 关键 词 误 判 为 男 一 个 关键 词 ; 号 设 能 检测 出 语句 中 的 关键 词 。 这 
3 种 错误 分 别 对 应 传统 语音 识别 中 的 “插入 “替代 ”及 “删除 错误。 关键 词 检 出 系统 错误 一 
般 分 为 两 类 , 捕 人 和 和 蔡 代 错误 称 之 为 “ 虚 警 (false alarms,FA) ,而 删除 错误 则 称 之 为 “ 错 拒 ? 
(false rejections,FR)。 衡 量 关 键 词 检 出 系统 的 性 能 指标 一 般 是 用 识别 率 和 每 小 时 每 个 关 
键 词 的 虚 警 次 数 (EA/7/Kwyhr) 来 表示 的 。 

关键 词 检 出 系统 的 另 一 个 问题 是 对 假设 产生 的 关键 词 , 它 的 可 信和 度 到 底 有 多 高 ,这 是 许 
多 研究 者 重点 研究 的 内 容 。 由 此 产生 了 一 个 重要 的 研究 方向 : 对 假设 的 关键 词 ,需要 估计 
它 的 置信 和 度 (Cconfidence measure,;CM), 用 置信 和 度 来 决定 是 否 接受 每 个 关键 词 ,如 果 置 信和 度 
过 低 , 则 可 认为 属于 虚 警 而 去 挥 。 


6.11.2 关键 词 检 出 系统 的 组 成 


关键 词 检 出 系统 可 以 看 作 由 两 个 重要 的 部 分 组 成 ,第 一 个 是 语音 识别 器 , 它 的 输入 是 语 
音 句 子 ,输出 是 由 关键 词 和 非 关键 词组 成 的 一 个 序列 ,或 者 它们 组 成 的 网 格 ; 这 个 输出 结果 
作为 第 二 个 组 成 部 分 “关键 词 确认 ”模块 的 输入 ,由 它 进 行 关键 词 确认 ,最 终 的 输出 就 是 关键 
词 序列 . 

图 6-49 中 ,语音 识别 模块 的 作用 是 对 输入 的 语音 进行 第 一 级 识别 ,在 基于 HMM 的 系 
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统 中 ,再 要 对 词 表 中 的 每 个 关键 词 训练 一 个 模型 , 称 为 天 键 词 模型 ,用 K 表示 。 一 般 关 键 词 
模型 的 建立 和 通常 的 孤立 词 HMM 模型 的 建立 没有 什么 区 别 。 同 时 ,对 非 关 键 词 也 需要 建 
六 HMM 模型 一 垃圾 模型 ,用 G 表示 。 语 音 识别 带 的 输出 是 一 个 由 关键 词 和 非 关 键 词 模型 
组 成 的 词 串 或 词 网 格 , 在 这 个 输出 中 的 每 一 个 天 键 词 部 称 为 一 个 “假设 命中 ”, 因 为 它 还 不 是 
实际 上 最 终 的 结 来 ,有 待 进一步 确认 。 图 中 的 其 他 知识 源 表 示 在 语 首 识 别 副 器 利 用 可 能 的 
赂 识 来 提 融 识 别 右 的 性 能 。 


给 六 
语 HH ks | 站 
二 办 

出 


图 6-49 关键 词 检 出 系统 的 组 成 


对 关键 词 检 出 系统 来 说 ,由 于 输入 请 流 中 可 能 存在 看 大 量 的 词 表 外 词 。 因 此 ,解码 胡 的 
性 能 及 识别 率 不 仅 与 关键 词 模型 密切 相关 ,而 且 与 非 关 键 词 模型 (垃圾 模型 ) 的 选取 有 大 。 


6.11.3 垃圾 模型 建 模 万 法 


垃圾 模型 基本 上 可 以 分 为 两 类 : 离线 式 (off-line) 和 在 线 式 (on-line) 垃 圾 模型 。 

1. 离线 式 垃圾 模型 

离线 式 垃圾 模型 是 在 系统 建立 过 程 中 ,预先 对 词 表 外 词 建立 显 式 的 声学 模型 ,包括 前 面 
提 到 的 垃圾 模型 和 反 关 键 词 模型 等 ,识别 的 时 候 把 它们 和 关键 词 并 列 ,识别 结果 是 关键 词 和 
韭 关 键 词 连 接 的 串 。 通 常用 最 大 似 然 估计 训练 得 到 离线 垃圾 模型 ,根据 使 用 环境 的 不 同 , 它 
可 以 是 单一 的 模型 ,也 可 以 是 多 个 分 类 模型 。 还 可 以 由 关键 词 的 一 部 分 或 关键 词 状态 的 加 
权 分 布 来 构建 。 

1) 单一 垃圾 模型 

采用 单一 垃圾 模型 的 关键 词 检 出 系统 ,根据 实际 使 用 需求 的 不 同 , 可 以 使 用 单 状态 的 模 
型 或 多 状态 的 模型 。 单 状态 的 模型 如 图 6-50 所 示 ,为 一 个 状态 
的 上 月 环 模型 。 () 

在 很 多 关键 词 检 出 系统 中 要 建立 背景 模型 ,为 语音 中 的 无 
声 段 和 传输 噪声 等 背景 语音 建立 声学 模型 。 背 景 模 型 一 般 采 用 
单 状态 结构 ,通过 无 声 段 语 料 ,基于 最 大 似 然 准则 训练 得 到 。 也 有 的 关键 词 检 出 系统 使 用 单 
状态 垃圾 模型 ,同时 对 背景 首 和 词 表 外 词 进 行 建 模 , 此 时 模型 一 般 采 用 维 数 比 较 高 的 混合 概 

很 多 关键 词 检 出 系统 使 用 一 个 多 状态 的 垃圾 模型 对 所 有 的 词 表 外 词 进行 建 模 。 此 时 垃 
圾 模型 往往 采用 与 关键 词 模 型 相同 的 结构 ,如 果 关 键 词 模 型 采用 10 状态 9 维 混合 概率 密度 


图 6-50 单 状 态 模 型 结构 
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图 数 无 跳 转 从 左 至 右 的 HMM 结构 ,那么 垃圾 模型 也 应 该 采用 同样 的 结构 。 在 训练 时 ,使 
用 标注 好 的 大 量 垃 圾 语 料 对 同一 个 垃圾 模型 进行 训练 ,得 到 一 个 多 状态 的 垃圾 模型 。 
2) 多 个 垃圾 模型 
单一 垃圾 模型 往往 应 用 于 词 表 外 数据 比较 有 限 .出 现 频 次 比较 低 的 场合 ,例如 命令 系统 
等 。 对 大 部 分 对 话 系 统 和 监听 系统 而 言 ,由 于 词 表 外 数据 几乎 是 无 限 的 ,因此 往往 采用 多 个 
垃圾 模型 对 其 建 模 。 
有 很 多 方法 可 以 实现 多 个 垃圾 模型 的 建 模 ,这 里 只 人 简要 介绍 三 种 方法 ， 
(1) 手工 标注 每 个 词 表 外 词 ,为 每 个 词 表 外 词 建立 一 个 垃圾 模型 ; 
(2) 关键 词 采用 子 词 模型 (音素 模型 ) 时 ,可 以 将 全 部 音素 模型 都 作为 垃圾 模型 。 例 如 
用 CDKCcontext-dependent) 音 系 模型 表示 关键 词 ,用 全 部 Cl(context-independent) 音 系 模 型 
作为 垃圾 模型 ，; 
(3) 将 CI 音素 聚 类 成 若干 类 ,比如 说 ?7 类 ,将 每 个 音素 类 作为 垃圾 模板 。 
3) 由 关键 词 模 型 构建 的 垃圾 模型 
有 的 关键 词 检 出 系统 的 垃圾 模型 ,不 是 使 用 垃圾 语 料 训练 得 到 的 ,而 是 使 用 关键 词 模 型 
直接 构建 而 成 。 这 样 的 垃圾 模型 也 有 单 状态 和 多 
词 模 型 的 各 个 状态 的 概率 密度 函数 经 过 加 权 组 合 ， 
垃圾 模型 一 般 采 用 网 络 结 构 , 如 图 6-51 所 示 , 其 中 
每 一 个 状态 都 与 关键 词 模 型 中 的 一 个 状态 相对 应 。 
4) 反 关 键 词 模型 
在 关键 词 检 出 系统 中 引入 反 关 键 词 模 型 ,可 以 
提高 关键 词 间 的 区 分 能 力 。 反 关键 词 模 型 也 是 离 
图 651 由 关键 词 模型 构建 的 线 训练 得 到 的 。 对 每 个 关键 词 都 要 建立 与 之 相对 
SN 应 的 反 关键 词 模型 , 它 不 是 用 垃圾 语 料 而 是 用 词 表 
内 其 他 关键 词 的 语 料 训练 得 到 的 。 采 用 反 关键 词 
模型 方法 的 基本 思想 为 ,在 Viterbi 解码 阶段 ,提供 一 个 在 整个 再 学 空间 上 与 关键 词 模型 互 
补 的 一 个 声学 模型 。 假 设 整 个 声学 空间 为 0, 而 关键 词 & 的 声学 空间 为 A;, 则 其 反 模 型 所 
对 应 的 声学 空间 为 A; 二 0 一 Al。 
在 建立 反 关 键 词 模 型 的 时 候 有 一 点 需要 考虑 ,如 果 为 系统 中 的 每 一 个 关键 词 都 建立 一 
个 反 词 模型 ,关键 词 越 多 ,所 需要 的 反 关 键 词 模型 的 数目 也 越 大 。 反 关键 词 模型 过 多 ,会 增 
加 识别 系统 的 负担 ,影响 识别 速度 。 为 了 解雇 这 个 问题 ,可 以 采用 关键 词 聚 类 的 做 法 ,将 天 
个 关键 词 分 为 R 类 ,R 是 一 个 适当 大 小 的 数 。 为 每 一 类 的 关键 词 建 立 一 个 反 词 模型 ,从 而 
限制 反 词 模型 数量 。 假 设 属于 同一 类 关键 词 的 HMM 模型 的 参数 在 参数 空间 上 距离 比较 
接近 ,那么 这 个 聚 类 过 程 可 以 用 最 近邻 准则 下 的 聚 类 算法 得 到 。 反 关键 词 模 型 还 可 应 用 于 
关键 词 确 认 。 
在 词 表 外 语音 的 数据 量 较 小 时 ,离线 垃圾 模型 能 够 比较 精细 地 刻画 词 表 外 词 的 特性 ,但 
是 由 于 大 部 分 应 用 场合 下 系统 词 表 外 词 部 相当 广 沁 ,这 时 要 想得到 比较 好 的 结果 ,离线 垃圾 
模型 必须 经 过 非常 精心 的 设计 和 训练 ,难度 非常 大 。 并 且 离 线 建 模 也 使 得 垃圾 模型 的 设计 
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和 训练 依赖 于 词 表 的 内 容 , 当 关键 词 发 生变 化 时 ,离线 垃圾 模型 需要 重新 训练 。 此 外 确认 每 
个 识别 结果 都 要 用 离线 垃圾 模型 去 计算 似 然 得 分 ,确认 的 时 间 也 相应 地 增 大 。 

2. 在 线 垃圾 模型 

对 于 在 线 式 垃圾 模型 ,关键 词 模型 一 般 使 用 CI 或 CD 音素 模型 来 描述 。 系 统 不 再 离线 
地 训练 垃圾 模型 ,而 是 在 识别 过 程 中 在 线 地 为 每 一 个 语音 帧 计算 一 个 局 部 垃圾 评分 。 计 算 
方法 是 取 构 成 关键 词 的 CI 或 CD 音素 中 ,在 本 帧 上 得 分 最 高 的 N 个 评分 的 平均 值 作为 垃 
圾 评分 。 实 际 上 ,这 种 计算 垃圾 评分 的 方法 与 用 垃圾 语 料 训练 离线 垃圾 模型 一 样 是 一 种 平 
滑 技术 ,离线 垃圾 模型 方法 是 在 训练 样本 上 全 局 地 去 做 ,而 在 线 垃圾 评分 方法 是 在 线 地 局 
部 地 去 做 。 在 这 种 评分 方法 下 ,垃圾 评分 永远 都 不 会 是 最 高 的 得 分 ,而 且 只 有 在 所 有 音素 上 
的 得 分 都 很 低 时 , 才 会 被 识别 成 垃圾 。 此 外 这 种 算法 也 有 一 定 的 抗 噪 性 ,在 噪声 环境 下 , 关 
键 词 得 分 发 生变 化 ,垃圾 得 分 也 跟随 同方 向 的 变化 ,在 一 定 程度 上 起 到 凸显 关键 词语 音 的 
作用 。 

6.11.4 语音 解码 器 的 设计 

如 前 所 述 ,图 6-49 中 语音 识别 模块 的 作用 是 根据 关键 词 模型 和 非 关 键 词 模型 ,采用 一 
定 的 连续 语音 识别 策略 ,对 输入 的 语音 流 进行 解码 。 它 的 输出 由 关键 词 和 非 关 键 词组 成 ,其 
输出 形式 可 以 取 N-best 或 者 词 格 (word lattice) 的 形式 。 输 出 的 每 个 关键 词 或 非 关 键 词 中 
都 包括 了 足够 的 信息 ,如 词 号 .在 输入 语 流 中 起 始 位 置 . 终 止 位 置 ,以 及 搜索 过 程 中 的 打分 等 
必要 的 信息 。 这 些 信息 在 后 级 的 关键 词 确认 /置信 度 计算 上 是 必须 的 。 

为 了 能 利用 已 有 的 语音 识别 的 搜索 算法 ,大 多 数 关键 词 检 出 系统 都 采用 无 限制 的 语法 
网 络 。 假 设 有 M 个 关键 词 模型 , N 个 垃圾 模型 /填充 模型 ,其 相应 的 声学 模型 为 K, ~ Kw 
及 G1 一 Gr。 其 语法 网 络 结构 如 图 6-52 所 示 。 


图 6-52 关键 词 检 出 系统 的 语法 网 络 结构 


显然 ,这 样 是 一 个 无 语法 约束 的 网 络 , 它 允许 任意 的 关键 词 和 任意 的 非 天 键 词 构 成 合法 
的 词 串 。 把 关键 词 模 型 与 非 天 键 词 模型 的 具体 结构 代入 这 个 网 络 , 可 以 得 到 一 个 有 限 状 态 
网 ,这 驶 是 连续 博 音 识别 时 的 状态 搜索 空间 ,图 中 的 Wi 与 Ws 表示 词 的 转移 权 。 

在 关键 词 检 出 中 ,请 首 解码 过 程 一 般 采 用 连续 语 首 识别 蜡 法 。 其 任务 就 是 在 上 述 博 法 
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网 络 结构 的 状态 搜索 空间 中 , 找 出 一 条 从 起 点 开始 到 最 后 整个 发 音 结束 时 ,最 佳 的 状态 序列 
路 径 上 所 经 过 的 关键 词 与 非 关键 词 。 

设 词 表 中 参与 搜索 的 词 共有 M 个 ,其 中 第 mx 个 词 的 状态 数 为 J(m)。 给 定 的 模型 结构 
为 从 左 到 右 无 跳 转 的 基本 结构 ,整个 连续 语句 的 搜索 算法 ,可 以 按照 如 One-Pass 等 算法 进 
行 。 其 基本 思想 是 ,对 输入 声 流 进行 单 和 遇 搜索 ,从 第 一 个 输入 天 量 开 始 ,运用 Viterbi 解码 方 
法 计算 下 一 个 时 刻 的 路 径 及 打分 。 在 状态 转移 过 程 中 ,可 能 有 两 类 转移 发 生 ,第 一 类 是 在 一 
个 模型 内 部 的 转移 ,这 种 词 内 转移 的 规则 还 从 一 般 的 解码 规则 ; 第 二 类 是 发 生 在 词 与 词 之 
间 的 状态 转移 ,这 种 转移 的 规则 需要 考虑 请 言 模 型 ,如 二 元 文法 或 者 三 元 文法 。 此 外 , 词 长 
言 息 等 其 他 的 知识 在 这 一 步 也 可 以 引入 ,比如 限定 发 生词 间 转 移 的 时 候 , 前 一 个 词 的 帧 长 必 
须 大 于 某 一 个 数值 才 可 能 发 生 。 经 过 这 样 的 一 个 迭代 过 程 ,可 以 记录 最 优 的 路 径 , 以 及 最 
优 路 径 上 的 得 分 等 相关 信息 。 最 后 当 所 有 的 输入 矢量 都 扫描 完成 以 后 ,可 以 得 到 一 个 最 
佳 的 路 径 打 分 ,根据 搜索 过 程 中 记录 的 回 湖 指 针 , 可 以 很 方便 地 得 到 一 个 最 优 路 径 , 这 个 
路 径 上 所 有 的 模型 就 构成 了 解码 硕 的 最 终 输 出 结果 。 这 些 信息 将 在 确认 过 程 中 起 重要 
的 作用 。 


6.11.5 关键 词 确认 过 程 


输入 语音 经 过 第 一 级 的 语音 解码 兹 后 ,产生 的 是 关键 词 和 垃圾 模型 组 成 的 词 网 络 ,最 简 
单 的 情况 是 一 个 词 串 。 在 这 个 输出 中 ,每 个 关键 词 都 包括 最 基本 的 信息 ,如 起 始 位 置 、 终 止 
位 置 及 似 然 评 分 。 这 些 输出 串 中 可 能 包含 某 个 关键 词 ,但 是 否 真正 存在 这 个 关键 词 ,一 般 还 
裔 要 在 关键 词 确 认 过 程 中 进一步 给 出 明确 的 结论 。 即 关键 词 检 出 要 经 过 识别 和 确认 两 个 阶 
段 。 系 统 在 识别 阶段 为 了 保证 最 终结 琳 有 比较 高 的 正 识 率 , 第 第 给 出 尽 可 能 多 的 候选 ,以 保 
把 正确 的 候选 包含 进来 ,所 以 在 确认 阶段 必须 使 用 有 效 的 方法 ,去 挥 ( 拒 识 ) 那 些 错 误 的 候 
选 , 以 降低 系统 的 误 警 率 。 传 统 的 拒 识 方法 一 般 是 基于 统计 假设 检验 的 。 在 统计 学 中 ,统计 
假设 检验 是 应 用 比较 广泛 的 判别 准则 之 一 。 由 于 前 面 的 语音 识别 阶段 ,采用 的 是 建立 在 随 
机 过 程 基础 上 的 HMM 模型 ,因此 在 关键 词 确认 阶段 ,可 以 用 统计 假设 检验 方法 进行 声音 
确认 。 

统计 假设 检验 的 基本 原理 就 是 比较 零 假设 瓦 和 备 择 假 设 瓦 ; 所 得 值 的 大 小 差异 。 在 
关键 词 确认 中 , Hi。 表示 语音 识别 器 输出 串 中 存在 关键 词 , HT 表示 这 个 语音 识别 器 输出 串 
中 不 存在 关键 词 ,或 把 关键 词 错 误 地 识别 成 其 他 的 关键 词 。 如 条 雪 假 设 和 备 择 假 设 都 已 经 
明确 得 到 ,根据 Neyman-Pearson 定理 ,最 佳 的 检验 通常 是 概率 比 检 验 , 即 
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一 般若 A 大 于 事先 设 定 的 赋 值 , 则 接受 零 假设 ; 如 果 A; 小 于 事先 设 定 的 阅 值 ,就 接受 
备 择 假 设 。 在 实际 应 用 中 ,对 式 (6-261) 中 的 概率 可 以 采用 对 数 似 然 值 。 

一 种 比较 人 简单 的 方法 就 是 采用 似 然 比 检验 ,用 关键 词 模 型 的 似 然 评 分 和 垃圾 模型 或 反 
关键 词 模型 上 评分 之 间 的 差异 ,来 作为 是 否 接 受 关 键 词 假设 的 依据 ,如 果 这 个 差异 大 于 某 一 
个 国 值 , 则 接受 关键 词 的 假设 ,否则 拒绝 关键 词 假设 。 


6.11.6 天 键 词 检 出 系统 性 能 优化 
- 般 通 过 错误 拒绝 率 和 错误 接收 率 来 评价 关键 词 检 出 系统 的 性 能 。 而 这 一 对 指标 是 互 


相克 眉 的 ,一 个 指标 的 上 升 ,会 市 来 妨 一 个 指标 的 下 降 。 在 实际 使 用 时 ,应 该 根据 具体 应 用 
十 求 的 不 同 , 通 过 调 证 条 些 参 数 来 作出 折 中 的 决定 ,实现 系统 的 性 能 优化 。 可 以 调 太 如 下 做 
数 来 优化 系统 的 性 能 : 

(1) 识别 国 什 和 确认 国 值 ; 

(2) 由 于 垃圾 模型 是 通过 大 量 的 垃圾 硬 料 训练 得 到 的 ,因此 局 部 垃圾 似 然 评分 一 般 部 
比较 低 。 增 加 关键 词 人 口 惩 玉 可 以 有 效 地 降低 误 识 府 ; 

(3) 垃圾 词 的 词 间 装 移 惩 神 。 


6.12 ”语音 识别 的 应 用 技术 


近年 来 , 博 音 识别 扩 术 的 应 用 范围 越 来 越 广泛 ,并 出 现 了 一 些 新 的 应 用 方 癌 ,如 博 音 信 
县 检索 技术 .发音 学 习 校 正 技术 等 ,本 节 介 绍 这 方面 的 内 容 。 


6.12.1 语音 信息 检索 


随 着 多 媒体 技术 和 网 络 拉 术 的 迅速 发 展 ,数据 量 急剧 增多 。 如 何在 海量 数据 中 挑选 出 
有 用 的 信息 ,并 进行 相应 的 分 类 和 检索 ,对 合理 地 利用 信息 资源 具有 重要 的 意义 。 多 媒体 信 
息 检 索 技 术 就 是 在 这 一 背景 下 应 运 而 生 的 。 对 多 媒体 信息 检索 的 研究 ,目前 多 为 基于 文本 
的 信息 检索 ,并 且 已 经 相当 成 熟 ,出 现 了 如 Google 等 一 些 非常 好 的 检索 工具 。 相 比 之 下 , 基 
于 语音 和 图 像 内 容 的 信息 检索 技术 还 很 不 完善 ,存在 着 大 量 的 问题 需要 解决 。 

语音 作为 数字 化 信息 的 一 个 重要 类 型 , 正 发 挥 着 越 来 越 重 要 的 作用 。 在 广播 电视 新 闻 
节目 .学 术 会 议 的 录音 报告 等 中 包含 着 大 量 的 语音 信息 ,如 何 有 效 地 对 这 些 信息 进行 分 类 、 
检索 ,充分 利用 好 这 些 信息 是 一 个 呕 待 解决 的 问题 。 随 着 语音 处 理 技术 的 发 展 和 逐步 完善 ， 
语音 识别 技术 已 经 能 够 对 广播 新 闻 节 目 中 的 标准 连续 语音 进行 识别 ,具有 很 高 的 识别 率 。 
由 于 语 首 具有 和 卫 观 \ 目 然 ,方便 人 类 使 用 的 特点 ,所 以 利用 现 有 成 熟 的 语 首 识别 技术 对 多 媒 
体 数据 进行 检索 ,将 极 大 地 提高 人 们 对 现 有 多 媒体 数据 信息 的 利用 率 。 目 前 ,国际 上 正在 制 
定 多 妹 体 音 视 频 信 息 检 索 的 国际 标准 ,人 们 更 期 青 直 接 用 请 音 来 检索 存储 体 中 相关 的 音频 
言 奶 ,而 不 是 只 用 文本 检索 。 由 此 看 来 ,基于 语音 内 容 的 信息 检索 是 一 个 有 着 广阔 发 展 前 景 
的 研究 方 回 。 

基于 语音 内 容 的 信息 检索 技术 近年 来 获得 了 广泛 的 重视 ,国外 很 多 著名 的 研究 单位 和 
公司 都 开展 了 此 方面 的 研究 。 美 国 卡 耐 基 ， 梅 隆 大 学 的 Informedia 项 目 结合 语音 识别 、 视 
频 分 析 和 文本 检索 技术 开展 了 视频 广播 的 检索 ,美国 南 加 州 大 学 研究 了 基于 音频 处 理 的 电 
视 节 目 分 类 技术 ,美国 一 些 理工 大 学 也 应 用 音频 分 析 结 果 来 对 新 闻 、 天 气 预 报 、 篮 球 比 赛 、 足 
球 比赛 和 广告 等 视频 场景 进行 分 类 。 美 国 马里 兰 大 学 结合 基于 内 容 和 基于 说 话 人 的 查询 ， 
用 来 检索 已 知 的 说 话 人 和 词语 ,并 设计 了 一 种 音频 图 示 查 询 接 口 。 美 国 碎 省 理工 和 学院、 康 奈 
尔 大 学 . 南 加 州 大 学 .澳大利亚 卧龙 几 大 学 .欧洲 Euromedia 和 Eurocom 的 语音 和 音频 处 理 
小 组 等 研究 机 构 分 别 开 展 了 用 子 词 方法 进行 语音 检索 ,通过 哼 唱 查询 相似 的 音乐 .音频 分 
类 结构 化 音频 表示 ,以 及 基于 说 话 人 的 分 割 和 索引 等 方面 的 研究 。 此 外 ,英国 剑桥 大 学 利 
用 基于 Lattice 的 词组 发 现 技 术 检 索 视 频 邮 件 中 的 消 上 朋 。 日 本 东 汞 科技 大 学 还 研究 了 基于 
概念 搜索 和 口语 人 机 对 话 的 信息 检索 系统 。 相 对 来 说 ,国内 在 此 方面 开展 的 工作 还 不 是 很 
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多 ,对 音频 信息 检索 的 研究 较 少 。 中 国 科 学 院 日 动 化 研究 所 国家 模式 识别 重点 实验 室 开 展 
了 关于 广播 节目 音频 变化 分 割 的 研究 ; 哈尔滨 工业 大 学 研究 了 基于 HMM 模型 的 音频 场景 
分 析 技 术 及 电视 广告 月 动 监 播 技术 ; 国防 科技 大学 人 研究 了 基于 内 容 的 音频 信息 检索 与 分 类 

有 关 音 频 信 息 分 类 和 检索 的 研究 大 致 可 分 成 四 类 : 

1) 直接 对 音频 信息 进行 的 分 类 

直接 对 音频 信息 进行 分 类 的 一 个 基本 问题 是 如 何 分 开 请 音 和 音乐 这 两 类 最 重要 的 音频 
数据 。Saunders 等 只 使 用 平均 过 零 率 和 能 量 特征 ,以 及 一 个 简单 的 国 值 来 进行 分 类 ; 
Scheirer 和 Slaney 则 使 用 了 13 个 时 域 、 频 域 和 倒 谱 域 的 特征 ,以 及 比较 复杂 的 分 类 方法 来 
达到 性 能 的 项 健 性 。 事 实 上 ,因为 语音 和 音乐 的 频谱 特征 存在 着 不 同 , 而 且 其 随时 间 变 化 的 
方式 也 不 同 , 所 以 要 把 两 者 区 分 开 并 不 难 。 比 较 复 好 的 音频 数据 分 类 是 要 把 除 语 音 和 音乐 
之 外 的 其 他 音频 数据 也 考虑 进去 。Wyse 和 Smoliar 把 音频 信和 号 分 类 成 语音 、 音乐 和 其 他 三 
类 ,首先 根据 频谱 共振 峰 的 规律 性 把 音乐 区 分 出 来 ,然后 利用 基 频 检测 把 语音 区 分 出 来 ,这 
种 方法 后 被 用 于 对 新 闻 报 道 的 检索 和 分 析 。Kimber 和 Wilcox 使 用 倒 谱 系数 特征 ,HMM 
作 分 类 天 ,把 音频 信号 分 成 语音 .沉默 、 笑 声 和 其 他 声音 ,这 种 方法 后 被 应 用 在 对 会 议 记 录 的 
分 析 和 检索 中 。 而 Pfeiffer 等 人 看 眼 于 分 析 音 频 信 号 的 幅 值 . 频 详 、 基 频 等 ,并 且 更 侧重 于 
对 人 类 听 筑 的 模拟 。 

2) 基于 内 容 的 音频 检索 

一 种 特别 的 技术 就 是 排队 重复 法 ,通过 反复 重复 一 个 歌曲 的 曲调 ,可 以 将 该 曲调 片段 从 
一 系列 音频 信号 中 检索 出 来 。Ghias 等 人 利用 这 种 技术 设计 了 一 个 很 有 代表 性 的 系统 。 
Foote 利用 Mel 频率 倒 谱 系数 为 特征 ,以 及 一 个 树 形 结 构 的 分 类 器 进行 分 类 ,实现 了 对 首 乐 
和 声 音 的 检索 ,但 该 系统 对 音乐 和 环境 声音 分 类 效果 不 够 好 。Smith 等 人 为 妍 究 在 三 播 中 
快速 检测 某 一 特定 信息 ,采用 了 过 零 率 特征 的 直方 图 模型 和 动态 的 查找 算法 。Zhang 和 
Kuo 研究 了 实时 音 视 频数 据 的 分 割 和 检索 ,采用 能 量 .平均 过 零 诗 . 短 时 基 频 和 频谱 共振 峰 
轨迹 进行 研究 ,利用 这 些 音 频 特 征 对 一 个 电影 进行 分 割 。 

3) 为 视频 分 类 而 做 的 音频 分 析 和 检索 

Liu 等 人 用 音频 分 析 的 方法 来 区 分 五 个 视频 场景 : 新 闻 节 目 、 天 气 预 报 、 篮 球 比 赛 .足球 
比赛 和 广告 。 在 这 个 研究 中 采用 基 波 能 量 等 特征 ,利用 多 层 神 经 网 络 和 HMM 作 分 类 器 。 
其 他 人 的 做 法 更 侧重 于 视频 数据 ,而 只 是 以 音频 数据 为 辅 。Patel 和 Sethi 在 MPEG 压缩 数 
据 中 ,利用 音频 信号 特征 把 视频 分 成 对 话 , 非 对 话 和 沉默 三 种 。 他 们 利用 的 是 能 量 . 基 频 、 频 
谱系 数 、 暂 停 率 等 特征 ,用 一 系列 的 阅 值 来 进行 分 类 。 

4) 视频 检索 

视频 检索 只 是 在 视频 检索 的 过 程 中 加 入 音频 作为 辅助 特征 。Naphade 等 人 把 一 个 视频 
片段 的 色彩 直方 图 和 该 片段 中 的 基 波 数据 混合 ,组 成 一 个 “Multiject”, 并 用 HMM 来 检索 ， 
这 种 方法 对 爆炸 和 泽 布 的 分 类 效果 较 好 。 


6.12.2 发 音 学 习 近 术 


当今 社会 越 来 越 多 的 人 希望 学 习 和 掌握 其 他 非 母语 语言 ,以 利于 更 方便 地 进行 交流 。 
因此 ,语言 学 习 成 为 目前 教育 领域 的 一 个 热点 。 实 践 证 明 , 采 用 传统 的 课堂 教学 对 于 学 习 一 
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门 非 母 语 语言 是 远 迁 不 够 的 。 目 学 是 霹 言 学 习 的 一 种 有 效 途 径 , 它 具有 不 党 时 间 地 点 限制 、 
灵活 方便 等 特点 。 随 着 计算 机 技术 的 迅速 发 展 , 一 种 称 为 计算 机 辅助 语言 学 习 (computer- 
aided language learning,CALL) 的 技术 应 运 而 生 。 传 统 的 CALL 系统 ,主要 关注 语言 的 文 
字 应 用 能 力 ( 即 读 和 写 ) 和 语音 理解 能 力 ( 即 听力 ) 的 训练 ,相对 而 言 , 却 很 少 关 注 语 言 的 口头 
表达 能 力 ( 即 说 的 能 力 ) 的 训练 。 请 言 的 口 尖 表 达能 力 ,主要 表现 在 发 音 的 可 异 度 和 目 然 度 
上 。 近 年 来 , 随 着 语音 识别 技术 的 进步 ,人 们 开始 研究 利用 语音 识别 技术 进行 辅助 发 音 学 习 
的 CALL 技术 。 

在 发 音 学 习 中 ,有 效 的 反馈 是 必 不 可 少 的 一 个 重要 环 市 。 在 诬 竺 教学 中 ,教师 是 一 个 有 
效 的 反馈 源 , 然 而 谋 符 教学 的 时 间 单 竟 是 非常 有 限 的 。 在 发 音 目 学 中 ,要 人 么 是 没有 任何 反 
谷 , 要 么 就 是 反馈 最 终 还 得 依赖 于 学 习 者 日 刁 的 能 力 , 如 利用 复读 机 学 习 发 音 时 ,学 习 者 只 
能 依靠 自己 的 感知 能 力 去 比较 其 发 音 与 标准 发 音 的 差别 ,从 而 获得 发 音 的 修正 。 如 果 利 用 
铺 助 发 音 学 习 的 CALL 系统 ,学 习 者 就 可 以 随时 获得 有 效 的 反馈 ,包括 分 值 或 等 级 等 简洁 
直观 的 形式 、 图 谱 或 口 形 等 具体 形象 的 形式 ,以 及 直接 的 指导 性 建议 。 这 些 反馈 信息 集中 了 
人 类 发 音 专 家 的 知识 ,不 会 对 学 习 者 产生 误导 。 

基于 语音 识别 的 发 音 学 习 人 研究 是 20 世纪 90 年 代 左 右 开 始 进 行 的 ,美国 斯 坦 福 人 研究 
院 ,英国 剑桥 大 学 等 是 较 早 开展 此 工作 的 单位 ,目前 日 本 在 此 方面 相应 的 工作 也 开展 得 
较 多 。 和 理 港 理工 大 学 .清华 大 学 等 也 进行 了 相应 的 研究 。 语 音 识别 是 进行 发 音 学 习 的 关 
键 , 但 语音 识别 的 算法 还 不 完全 适合 发 痛 学 习 , 需 要 做 很 多 改进 。 这 些 工 作 主 要 集中 在 
三 个 方面 ， 

(1) 寻找 反映 发 首 质 量 的 性 能 指标 ,主要 是 人 饶 究 如 何 对 声调 重音 、 语 速 和 前 律 等 指标 
进行 计算 ; 

(2) 对 词 .短语 和 人 句子 发 音 进 行 打分 ,检测 和 纠正 给 定 的 音 和 又 级 发 音 钳 误 ; 

(3) 与 人 工 判断 相 比 较 ,研究 计 算 机 辅助 发 音 学 习 系 统 的 性 能 评测 手段 。 

从 语言 学 习 规 律 的 角度 来 看 ,一 个 完整 的 计算 机 辅助 发 首 学 习 系 统 应 包括 三 大 部 分 ,如 
图 6-53 所 示 。 第 一 部 分 为 基本 发 音 单 元 的 发 音 辅 助 学 习 ,这 是 发 音 学 习 的 第 一 阶段 。 其 主 
要 学 习 内 容 为 目标 语言 的 基本 发 音 单元 ,如 汉 请 的 声母 和 前 
母 ,英语 的 音 系 等 。 第 二 部 分 为 单词 的 发 音 辅助 学 习 , 主 要 的 
学 习 内 容 为 单词 发 音 , 包 括 音 系 的 组 合 发 音 , 不 同 语言 单词 发 
音 的 特点 ,如 汉语 的 声调 ,英语 的 重音 等 。 第 三 部 分 为 句子 
(包括 短语 ) 的 发 音 辅助 和 学习, 内 容 包 括 句 子 中 词 与 词 之 间 的 
协同 发 音 和 超 音 段 ,句子 的 语调 、. 语 速 和 韵律 等 方面 。 其 最 终 
目标 是 产生 可 异 度 和 日 然 度 较 高 的 句子 发 首 。 这 三 部 分 之 
间 , 前 者 是 后 者 的 基础 ,后 者 是 前 者 的 进一步 扩展 。 从 拷 术 上 
来 讲 ,实现 难度 不 断 增 加 。 

图 6-54 所 示 给 出 了 发 音 学 习 系 统 的 基本 原理 。 虚 线 框 部 分 是 系统 使 用 前 通过 训练 和 
发 音 专家 知识 预先 训练 好 的 。 图 中 单元 模型 利用 标准 发 音 数 据 进 行 训练 ,主要 是 用 来 进行 
单元 强制 对 齐 和 计算 似 然 度 打 分 。 分 级 模型 主要 通过 专家 的 分 级 统计 数据 来 建立 ,作为 计 
算 机 上 月 动 打分 和 分 级 的 参照 。 专 家 知识 库 由 专家 关于 发 音 的 错误 类 型 及 相应 的 矫正 方 
法 等 知识 组 成 ,主要 用 来 对 发 音 错误 类 型 作出 判断 ,并 给 出 相应 的 指导 性 矫正 建议 。 系 


基本 发 音 单元 学 习 


图 6-53 ”辅助 发 音 学 习 系 统 
的 三 个 组 成 部 分 
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统 首先 对 学 习 者 的 语音 进行 特征 提取 ,然后 以 训练 好 的 单元 模型 (一 般 为 HMM) 作 为 模 
板 , 通 过 如 Viterbi 等 算法 强制 对 齐 把 语音 分 割 为 计算 发 音质 量 测度 所 需要 的 小 单元 ,对 
于 不 同 的 质量 测度 ,采用 不 同 的 方法 去 计算 测度 值 。 然 后 ,依据 专家 主观 的 先 验 知识 建 
立 的 分 级 打分 模型 ,把 测度 值 转换 为 直观 衡量 发 音质 量 的 分 值 或 等 级 。 还 可 以 依据 测度 
值 和 专家 知识 库 , 根 据 打 分 值 或 等 级 对 发 音 错误 进行 定位 ,然后 分 类 ,并 最 后 给 出 矫正 的 
指导 性 建议 。 
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图 6-54 ”发音 学 习 的 基本 原理 框图 


- 般 对 于 一 个 计算 机 辅助 发 音 学 习 系 统 来 说 ,有 几 个 普 过 问题 和 关键 技术 是 必须 要 考 
虑 和 人 解决 的 ,下 面 对 这 些 问 题 和 技术 加 以 介绍 。 

1. 语料库 的 建立 

发 首 学 习 系 统 的 发 音 蛙 元 模型 和 分 级 模型 部 通过 语料库 训练 得 到 。 系 统 通常 需要 两 类 
语料库 : 标准 发 育 语 料 库 和 非 标 准 发 首 语 料 库 。 一 般 来 说 ,标准 发 彰 语 料 库 主要 用 来 训练 
发 音 单元 模型 。 它 的 建立 应 充分 考虑 学 习 者 的 年 龄 和 性 别 等 对 发 音 有 影响 的 关键 因素 ,使 
训练 语 料 尽 量 与 学 习 者 的 发 首 特点 相 一 人 臻 。 博 料 的 内 容 应 取决 于 将 来 系统 采用 的 基本 发 首 
处 理 单元 的 形式 ,可 以 是 音 系 .音节 或 者 单词 。 非 标准 发 音声 料 库 主 要 是 用 于 专家 手工 训 疆 
分 级 模型 ,并 测试 系统 性 能 ,应 具有 广泛 的 代表 性 ,充分 考虑 学 习 者 的 口音 、 年 龄 和 性 别 等 特 
征 。 其 请 料 的 内 容 根据 系 统 的 功能 有 所 不 同 , 因 为 不 同学 习 阶 段 的 学 习 重 点 不 同 ,进行 分 级 
评判 的 对 象 也 不 同 。 

2. 分 级 标准 

发 首 学 习 系 统 反 馈 给 学 习 者 的 一 类 重要 信息 ,就 是 学 习 者 发 音 水 平 的 高 低 。 衡 量 发 
音 水 平 的 高 低 有 两 种 办 法 : 一 种 办 法 就 是 以 标准 发 音 为 参考 ,利用 质量 测度 的 打分 值 耳 
接 来 衡量 该 发 音 与 标准 发 音 的 差异 ,如 相似 度 打 分 ,后 验 概 率 打 分 等 。 但 这 种 方法 的 缺 
点 是 打分 比较 绝对 .不 稳定 ,并 且 易 受 学 习 痢 个 体 差 异 的 影响 。 此 外 ,其 表述 也 不 直观 ， 
含义 太 抽 和 象 ,往往 与 人 的 感知 不 一 致 。 夯 一 种 办 法 就 是 以 发 音 专 家 的 判断 力 为 参考 , 通 
过 非 线 性 等 映射 方法 把 计算 出 的 发 音质 量 测 度 打分 值 转 换 为 专家 的 打分 。 专 家 打分 是 


-种 模糊 分 类 ,一 般 换 主观 感觉 把 皮 音 质量 分 为 耕 干 等 级 ,如 很 好 .好 、 一 般 `. 差 、 很 差 等 。 
这 种 分 级 是 相对 的 ,含义 比较 明确 ,符合 人 类 的 感知 习惯 ,并 且 具 有 一 定 的 稳定 性 。 此 
外 ,基于 发 音 专家 的 知识 ,还 可 以 用 清晰 度 .上 月 然 度 或 流利 程度 等 指标 来 直接 衔 量 发 音质 
ea 
. 语音 对 齐 

pled 学 习 中 的 相似 性 判断 都 是 采用 先 将 发 音 单元 对 齐 , 之 后 再 计算 打分 的 方法 。 
因此 ,对齐 的 准确 性 下 接 影 响 后 续 机 如 打分 判断 的 准确 性 。 通 向 发 音 的 参考 模板 是 由 标准 
发 彰 训 练 获得 的 ,而 学 习 痢 的 发 音 一 般 部 是 非 标 准 发 首 , 要 想 基 于 参考 模 极 计算 发 首 质 量 ， 
就 必须 使 学 习 痢 请 首 中 的 基本 打分 单元 与 参考 模板 的 尽量 一 致 。 在 采用 对 齐 算 法 时 ,应 先 
对 参考 模板 进行 修正 ,使 模板 能 更 好 地 体现 学 习 者 个 体 的 发 音 特 点 ,从 而 提高 对 齐 的 精度 。 
- 般 可 以 采用 在 说 话 人 目 适 应 技术 中 的 模板 修正 方法 ,对 齐 算 法 一 般 采 用 DTW 或 HMM 
技术 中 的 Viterbi 算法 进行 强制 对 齐 , 并 以 音 取 为 基本 处理 单位 ,这 样 可 以 扩展 到 与 文本 无 
关 的 情况 。 

4. 目 动 发 译 打 分 

衡量 发 音质 量 的 方法 有 很 多 ,比较 通用 的 有 : 对 数 似 然 度 打分 .对 数 后 验 概率 打分 、 段 
分 类 打分 、 段 时 长 打分 和 流利 程度 打分 等 。 所 有 这 些 打分 都 是 以 标准 发 音 为 参考 模板 ,通过 
各 种 有 效 的 相似 性 计算 来 获得 。 对 机 器 打分 有 两 个 基本 要 求 : . onesie 
冢 打分 的 一 致 性 ; 二 是 只 反映 学 习 痢 进行 某 种 请 言 发 首 的 能 力 ,向 不 是 退 求 与 标准 发 音 
个 体 之 间 的 最 佳 相 似 。 下 面 介 绍 几 种 常见 的 打分 标准 。 

1) HMM 对 数 似 然 度 打 分 

假设 基本 打分 单元 为 彰 系 ,zi; 为 第 i 个 音 系 的 起 始 时 间 , 则 打分 为 


tit1 


l; = > log[P(g, | gq,1) Po, | g,)] (6-262) 
式 中 ,o 和 o, 分别 为 1 时刻 的 观察 矢量 和 HMM 的 状态 ,p(g,|g,_1) 是 转移 概率 ,p(o,|g,) 为 
状态 g, 的 输出 概率 分 布 。 
将 所 有 音素 段 打 分 加 起 来 构成 单词 或 者 句子 打分 。 为 了 消除 单词 或 句子 长 度 不 同 的 影 
响 ,将 上 述 打分 值 按 长 度 加 以 归 正 , 即 


G 一 二 (6-263) 


式 中 ,NN 为 单词 或 句子 中 的 总 首 取 数 ,di; 二 Ti+1 一 Tt 为 第 i 个 首 双 持续 的 帧 数 。 这 种 简单 的 
归 正 处 理 , 容 多 出 现 较 长 的 首 系 淹没 较 短 首 系 的 现 银 。 av 
感知 特性 ,因此 对 打分 值 采 用 局 部 平均 加 以 修正 , 即 
7 一 二 (6-264) 
由 于 无 法 对 不 同学 习 者 的 发 音 进行 归 正 ,因此 对 数 似 然 度 打 分 的 准确 性 受 和 学 习 者 变化 
的 影响 较 大 ,与 专家 判断 的 一 任性 较 差 。 
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2) 对 数 后 验 概率 打分 

对 于 音 对 天, 给 定 与 其 相关 的 第 :有 段 博 音 的 每 一 由 观察 矢量 o, ,计算 其 后 验 概 率 为 
Plo, | 7 Per) 

> ,PCo， iyP(r;) 


式 中 ,PCo,|7,) 为 给 定 音 素 /下 观察 矢量 0, 的 概率 分 布 , P(r) 为 音素 /的 先 验 概率 ,M 为 
当前 语 料 中 与 文本 无 关 的 音素 总 数 ， 

音素 ;; 在 第 i 段 语音 对 每 一 帧 下 的 后 1 
第 i 段 语音 下 的 对 数 后 验 概率 打分 , 即 


Pls | oS= (6-265) 


全 概率 取 对 数 , 然 后 累加 , 束 可 以 得 到 首 系 x; 在 


ts 
P; = > log[P(r; | 0,)) (6-266) 


式 中 ,zc 表示 音 系 7; 所 对 应 的 第 i 段 语 音 的 起 娘 时 间 。 整 个 单词 或 句子 的 后 验 概 率 打 分 , 定 
义 为 单词 或 可 于 中 所 有 音 系 段 的 对 数 后 验 概率 按 音 隶 长 度 归 正 后 的 平均 值 , 即 


N 
3 lw 
P= 二 和 A CR 


式 中 ,N 和 4; 的 含义 与 式 (6-263) 相 同 。 

对 数 后 验 概率 打分 有 很 好 的 项 健 性 ,不 匈 随 学 习 痢 的 个 体 特 征 或 声音 通道 变化 而 发 生 
急剧 变化 ,更 好 地 反映 了 学 习 者 的 发 彰 与 标准 发 音 之 间 的 相似 性 ,因此 ,是 目前 使 用 最 普 氨 
的 一 种 发 音质 量 测 度 方法 。 

3) 段 分 类 打分 

段 分 类 打分 是 一 种 基于 识别 错误 的 发 音质 量 测 度 方法 。 如 果 语 音 识 别 硕 是 用 标准 发 音 
训练 的 , 则 学 习 者 的 发 音 获 得 的 识别 率 越 高 ,说 明 其 发 音 与 标准 发 音 越 接 近 ,发 音质 量 越 高 。 
根据 语音 识别 带 的 基本 识别 单元 的 不 同 , 段 分 类 打分 通常 可 以 分 为 两 类 方法 。 一 类 是 利用 
词 的 识别 错误 率 进 行 打分 ,包括 词 的 误 分 、 删 际 、 插 入 等 错误 。 但 如 果 想 要 很 方便 地 增加 新 
的 学 习 内 容 , 则 这 类 方法 要 求 识别 右 有 很 大 的 词 表 。 男 一 类 是 使 用 带 有 音 系 级 语法 的 音素 
识别 硕 。 耕 用 母语 训练 该 识别 着, 则 音 系 识别 的 错误 率 就 可 用 于 获得 发 音 打 分 。 这 种 方法 
的 好 处 是 比较 灵活 ,可 以 很 容易 地 更 新 学 习 内 容 。 

就 目前 语音 识别 技术 进展 来 看 ,语音 识别 右 对 非 母 语 学 习 者 的 发 音 很 难 获 得 较 高 的 识 
别 率 ,尤其 是 没有 采用 月 适 应 技术 的 时 候 。 因 此 , 段 分 类 打分 的 稳定 性 是 比较 差 的 。 

4) 段 持 续 时 间 打 分 

段 持 续 时 间 主 要 是 指 语音 中 音素 段 的 时 长 。 从 心理 学 和 霹 言 学 的 角度 看 ,发 音 时 思考 
如 何 连 音 将 妨碍 语音 的 流畅 性 ,进而 引起 发 音 的 不 目 然 。 同 时 母语 和 目标 语言 发 音 方式 的 
不 同 也 会 影响 段 持 续 时 间 的 长 敌 。 此 外 ,两 种 语言 间 的 文字 到 发 音 转 换 规则 的 不 同 会 产生 
音 隶 的 插入 删除 和 和 蔡 代 等 错误 ,从 而 也 会 寻 致 段 持续 时 间 的 不 同 。 因 此 , 段 持续 时 间 的 长 
短 可 以 作为 发 音质 量 的 一 种 测度 ,尤其 是 可 用 于 反映 发 音 的 流利 程度 和 有 目 然 度 。 

用 标准 发 音 统计 出 段 持 续 时 间 的 离散 概率 分 布 , 学 习 者 发 音 的 段 持 续 时 间 打 分 可 是 
义 为 


N 
a 和 > logLPCf Cd) a (6-268) 
i 二 1 
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式 中 ,f(q;) 为 段 持续 时 间 4d; 的 归 一 化 阴 数 ,r; 为 对 应 于 第 i 个 语音 段 的 音素 ,P(f(d;)|r.) 
为 统计 获得 的 持续 时 间 4; 相对 于 首 系 7; 的 先 验 概率 分 布 ,N 为 整个 单词 或 句子 的 音 系 段 
总 数 。 段 持续 时 间 归 一 化 图 数 是 为 了 补偿 不 同学 习 者 语 速 上 的 差异 和 音 际 蝇 制 对 齐 所 产生 
的 误差 ,通常 定义 为 

Tleds) = d; * vb, (6-269) 
式 中 ,wv, 为 学 习 者 s 的 语 速 。 

5. 发 育 矫 正 

发 音 学 习 系 统 的 更 高 级 形式 就 是 能 够 根据 发 音 专家 的 知识 ,判断 发 音 错 误 的 类 型 ,并 给 
出 相应 的 矫正 建议 。 以 目前 的 技术 ,要 实现 一 个 足够 智能 的 .能 全 面 检测 发 音 错误 类 型 的 发 
音 学 习 系 统 是 不 可 能 的 。 因 此 ,比较 现实 的 做 法 是 : 首先 依据 发 音 专 家 的 知识 ,对 发 音 中 容 
易 出 现 的 错误 进行 分 类 ; 然后 针对 不 同 的 错误 类 型 设计 相应 的 检测 算法 ; 最 后 对 待 处 理发 
音 用 各 种 错误 检测 算法 分 别 检测 ,并 根据 检测 结果 对 错误 发 音 给 出 相应 的 矫正 建议 。 例 如 ， 
在 日 语 中 有 些 音素 发 音 相 同 , 只 是 在 持续 时 间 上 有 所 不 同 , 非 母语 学 习 者 经 第 弄 不 清楚 ,很 
容易 产生 发 音 错误 。 在 Goh Kawai 等 人 设计 的 给 非 母 语 学 习 者 学 习 日 语 单词 发 音 的 系统 
中 ,对 这 些 音 际 通过 其 时 长 来 判断 该 音 系 发 音 是 否 正 确 , 如 末 发 现 错误 , 则 给 出 错误 提示 和 
相应 的 矫正 建议 。 显 然 ,要 实现 发 音 矫 正 , 除 了 专家 关于 发 音 错 误 的 知识 外 ,能 否 设计 一 个 
有 效 的 错误 检测 算法 也 是 非常 关键 的 。 

6. 性 能 评测 

对 发 音 学 习 系 统 , 可 用 如 下 四 个 指标 来 评测 其 性 能 。 

1) 可 用 性 

指 系 统 是 否 易 于 使 用 ,并 达到 预期 的 学 习 目 标 。 如 学 习 时 间 的 长 短 、 学 习 内 容 是 否 丰 
富 ,指导 方法 是 否 得 当 等 。 

2) 有 效 性 

指 与 传统 的 自学 方法 相 比 ,系统 最 终 是 否 可 以 帮助 学 习 者 明显 提高 其 发 音 的 能 力 ,提高 
目标 语言 的 使 用 水 平 。 

3) 准确 性 

主要 指 发 音 打 分 和 分 级 、 错 误 位 置 判定 ,错误 类 型 判定 ,错误 纠 正 等 方面 是 否 可 靠 , 确 保 
系统 作出 的 判断 是 准确 无 误 的 。 

4) 权威 性 

主要 指 系 统 反 馈 给 学 习 者 的 信息 要 绝对 正确 ,不 会 对 学 习 者 产生 任何 发 音 的 误导 。 这 
主要 依赖 于 系统 所 采用 的 专家 发 音 知 识 的 权威 性 ,以 及 应 用 这 些 知 识 进 行 判 断 算法 的 正 
确 性 。 

可 用 性 和 有 效 性 是 对 系统 的 整体 评价 ,只 能 通过 学 习 者 的 使 用 体验 和 结果 来 获得 。 准 
确 性 和 权威 性 主要 是 对 系统 所 采用 的 发 音 学 习 技 术 和 策略 的 评价 ,也 可 以 通过 学 习 者 的 使 
用 来 获得 。 

由 于 学 习 者 个 体 的 差异 ,可 能 需要 通过 大 量 的 实验 才能 获得 比较 有 说 服 力 的 评价 。 这 
就 需要 采集 足够 的 样本 ,花费 大 量 的 时 间 。 从 技术 的 角度 看 ,一 个 比较 好 的 方法 就 是 定义 一 
些 技 术 指 标 , 通 过 少量 实验 和 计算 来 获得 比较 有 说 服 力 的 性 能 评价 。 一 般 委 用 的 评价 准确 
性 和 权威 性 的 指标 包括 以 下 三 种 。 
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(1) 严格 性 : 系统 判断 ( 指 打分 、 分 级 或 识 错 ) 国 值 与 专家 严格 性 的 关系 。 

(2) 一 致 性 : 两 种 判断 的 一 致 性 ,包括 专家 判断 之 间 、 专 家 与 系统 之 间 , 以 及 同一 专家 
的 不 同 判断 之 间 的 一 致 性 。 根 据 判 断 标 准 的 不 同 , 又 可 以 把 一 致 性 分 为 句子 级 的 和 话 者 级 
的 。 句 子 级 的 一 致 性 指 对 不 同 句 子 判 断 的 一 致 性 。 话 者 级 的 一 致 性 指 对 不 同 话 痢 的 语 料 进 
行 判 断 的 一 致 性 。 

(3) 交叉 相关 性 : 系统 判定 的 发 音 错 误 与 专家 判定 的 发 音 错误 的 对 应 性 。 

严格 性 和 交叉 相关 性 反映 了 系统 的 准确 性 ,严格 性 和 一 致 性 既 反 映 了 系统 的 准确 性 ,又 
反映 了 系统 的 权威 性 。 

语言 学 习 中 ,对 某 些 人 有 些 发 音 问 题 总 是 难以 彻底 解决 ,如 口音 问题 .不 自然 的 问题 等 。 
然而 语言 的 接受 者 通常 是 人 类 ,人 类 有 很 好 的 语言 自 适 应 能 力 , 因 此 ,针对 不 同 的 使 用 目的 ， 
对 学 习 者 应 有 不 同 的 要 求 。 比 如 对 那些 只 要 求 日 和 常会 话 的 学 习 者 来 说 ,口音 问题 就 可 以 认 
为 只 是 一 个 小 问题 。 不 同 的 语言 有 不 同 的 发 首 特点 ,学 习 时 容易 出 现 的 错误 也 就 不 同 。 因 
此 设计 发 首 学 习 系 统 时 ,应 根据 目标 语言 的 特点 去 加 以 定制 。 以 目前 的 研究 水 平 ,开发 针对 
某 些 典 型 发 音 问题 的 辅助 学 习 系 统 是 完全 可 能 的 。 但 辅助 发 音 学 习 系 统 毕 竞 是 一 个 多 学 科 
综合 的 产物 ,不 仅 涉 及 计算 机 技术 ,还 涉及 语 首 学 、 语 言 学 和 心理 学 等 其 他 学 科 。 要 想 开 发 

-个 通用 的 能 够 解决 任何 发 音 问题 ,给 学 习 者 专职 家 庭 教师 般 玫 助 的 系统 目前 还 有 相当 

的 困难 。 但 可 以 肯定 , 随 着 对 这 一 课题 的 继续 深入 人 研究 ,实现 这 样 系统 的 可 能 性 会 越 来 
越 大 。 


6.12.3 基于 语音 的 情感 处 理 
语言 是 人 类 创造 并 记载 了 文明 史 的 基本 手段 ,没有 语言 就 没有 今天 的 人 类 文明 。 在 人 


仅仅 看 眼 于 语音 词汇 传达 的 准确 性 ,而 完全 忽视 了 包含 在 语音 信号 中 的 情感 因 系 ,所 以 它 只 
是 反映 了 信息 的 一 个 方面 。 近 年 来 ,许多 人 研究 者 开始 研究 情感 对 语音 的 影响 ,以 及 尝试 对 请 
音 处 理 算 法 的 适应 技术 。 

在 日 稼 生活 中 ,可 以 通过 人 脸 的 表情 .请 音 和 手势 .心跳 .体温 ,以 及 血压 等 来 识别 情感 
状态 ,其 中 十 音 起 着 非常 重要 的 作用 。 有 许多 关于 培 音 和 人 情感 之 间 相 互联 系 的 研究 , 如 
Williams 发 现 情 感 对 声音 的 基 音 轮廓 有 很 大 的 影响 。Murray 认为 与 情感 关系 最 大 的 再 道 
参数 是 基 音 、 音 长 ,强度 和 声音 质量 ,并 且 也 提 到 基本 情感 与 声音 的 连 市 关系 是 与 不 同文 化 
有 关 的 。 

1. 情感 类 型 的 划分 

究竟 人 类 的 情感 类 型 有 哪些 ? 是 一 个 既 有 意思 ,又 难 回 答 的 问题 。 实 际 上 ,对 情感 类 型 
缺乏 有 效 的 定义 是 妨碍 进行 声音 情感 癸 究 的 隐 碍 之 一 。 人 情感 类 型 划分 困难 的 原因 之 一 在 
于 情感 属于 人 类 经 验 的 一 个 基本 方面 , 它 在 人 类 使 用 文字 符号 前 就 早已 存在 。 因 此 , 妨 
但 了 人 类 从 符号 中 获取 情感 的 笠 试 。 男 一 个 原因 是 人 研究 者 很 少 人 花 大 力气 来 寻找 合适 的 
描述 方法 。 

通常 情感 一 词 在 语义 上 讲 是 不 确切 的 。 在 日 常 使 用 中 , 它 的 意思 要 根据 上 下 文 而 变化 ， 
这 使 得 它 具 有 非常 灵活 的 方式 ,一 旦 脱离 了 上 下 文 用 于 描述 一 个 具体 的 领域 时 ,自然 会 产生 
问题 。 人 情感 一 词 的 第 一 种 意义 是 代表 实体 , 即 有 明确 边界 的 日 然 单位 。 如 害怕 、 生 气 这 两 种 


情感 。 心 理学 和 生理 学 上 所 人 研究 的 情感 强调 的 就 是 这 种 意思 , 它 在 全 部 可 能 的 感 客 中 寻找 
应 该 被 称 为 情感 的 离散 状态 ,并 对 这 些 状态 及 表述 出 的 范围 进行 命名 ; 情感 的 第 二 种 意义 
是 代表 一 定 状 态 的 荣 种 属性 ,如 当 我 们 说 某 人 的 声音 党 到 情感 影响 时 。 如 何 有 效 地 划分 情 
感 类 型 一 耳 是 一 个 顾 有 争论 的 问题 ,但 在 情感 研究 中 必须 进行 一 定 的 情感 类 型 分 类 是 研究 
音 们 的 一 个 普 过 共识。 

为 了 人 研究 方便 ,人 们 提出 了 基本 人 情感 的 想法 ,人 它 是 将 获得 的 一 系列 基本 情感 作为 研 
究 的 起 点 ,之 后 妍 究 每 一 情感 在 语音 中 是 如 何 反 映 出 来 的 ,这 种 想法 在 进行 情感 人 研究 时 
发 挥 了 较 大 的 作用 。 然 而 情感 之 间 是 相互 渗透 的 ,很 少 有 哪些 情感 状态 具有 其 他 情感 没 
有 的 纯正 和 基本 的 特征 。 为 外 ,一 些 情 感 是 通过 将 基本 情感 状态 加 以 混合 而 产生 出 来 
的 ,因而 也 就 不 可 避免 地 市 有 基本 情感 的 色彩 。 尽 管 有 各 种 各 梓 的 划分 和 描述 情感 的 方 
法 ,但 一 般 认 为 有 六 大 类 基本 情感 : 忒 惧 (fear)、 生 气 (Canger)、 高 兴 (happiness)、 悲 全 
(sadness), 旋 惊 (surprise) 和 厌恶 (disgust), 对 其 进行 扩展 的 通常 方法 是 区 分 其 奴 (hot 
anger) 和 生气 (cold anger) 。 

2. 情感 语音 数据 的 获取 

为 了 更 好 地 对 情感 处 理 技术 进行 研究 ,选取 和 获得 情感 语音 数据 就 显得 非常 重要 。 人 情 
感 二 音 数据 的 米 集 是 一 项 很 困难 的 工作 ,因为 审 有 情感 的 堵 音 数据 不 能 像 正 靖 情况 下 话 兰 
的 语音 数据 那样 可 以 随时 获得 。 如 何 能 保证 实验 省 产生 的 是 有 真实 情怀 的 数据 ,是 一 项 难 
度 非常 大 的 工作 。 目 前 普遍 的 做 法 是 : 选取 善于 表演 的 演员 来 作为 实验 者 ,然后 分 别 采 集 
他 们 在 各 种 模拟 情感 状态 下 的 声音 数据 作为 语 料 。 为 使 产生 的 情感 更 真实 ,在 一 些 研 究 中 ， 
通过 让 实验 痢 观 看 事 匈 准备 的 规划 好 情感 情节 的 电影 ,使 他 们 更 能 有 真情 实感 地 产生 相应 
的 语 首 ,再 对 其 进行 录制 。 为 了 获得 某 种 情感 下 程度 不 同 的 语音 样本 ,一 些 人 研究 中 通过 设置 
网 个 话 着 间 的 对 话 场 景 ,通过 一 方 的 话语 引起 玖 一 方 情绪 的 变化 ,再 录制 相应 的 情感 数据 ， 
如 日 本 东京 大 学 为 获得 生气 时 不 同 程度 下 的 场 表 6-5 “用 于 控制 生气 程度 情感 语音 以 
音 数据 ,设计 了 两 个 人 的 对 话 内 容 , 话 者 也 重 对 话 内 容 
复 相 同 的 内 容 , 而 话 痢 A 不顾 话 者 B 的 意愿 不 ， 从 火车 站 我 怎么 能 到 达 ? 
靳 地 提出 新 要 求 ,从 而 激 礼 了 话 者 B。 随 着 对 : 我 到 火车 站 接 你 (正常 ,Level 0)。 
话 的 进行 ,B 的 态度 由 平静 ,到 生气 ,再 到 愤怒 ， : 不 ,谢谢 。 告 诉 我 去 的 路 就 行 。 
B 的 样本 作为 将 来 分 析 用 的 数据 ,其 具体 情节 _B: 我 轨 祥 丰 弟 所 你 (有 凡人 不 凯 尖 ,Leve DD。_ 
如 表 6-5 所 示 。 其 他 的 情感 程度 也 可 以 设计 成 ”全 于 
| tn : 我 到 火车 站 接 你 (有 点 急躁 ,Level 2)。 
类 似 的 对 话 情景 。 我 自己 去- 

如 何 评 测 实 验 用 情感 数据 的 下 实 性 ,目前 , 我 到 火车 站 接 你 (生气 ,Level 3)。 
还 没有 统一 的 标准 。 一 般 大 部 采用 主观 评测 方 : 你 真 要 来 接 我 呀 ? 
法 : 让 录制 情感 数据 以 外 的 夺 干 人 作为 实验 : 我 到 火车 站 接 你 ( 愤 息 ,Level 4)。 
者 ,通过 随机 播放 所 搜集 到 的 寓 有 各 种 情感 的 
语句 ,让 实验 痢 主观 评价 出 所 播放 语 首 的 情感 类 型 ,并 且 经 过 反复 听取 比较 ,保留 情感 特征 
明显 的 数据 ,对 其 中 情感 特征 不 明显 的 句子 进行 删除 和 重新 制作 。 

由 于 大 多 数 情感 请 首 部 是 先 由 演员 来 模拟 产生 的 ,然后 再 由 听众 进行 主观 打分 评测 。 
因此 昌 无 疑问 存在 这 样 的 问题 : 秆 员 和 模拟 的 情感 语音 是 否 真 台 反 上 映 了 普通 人 在 共 种 情感 
时 的 信息 ? 由 于 存在 着 文化 背景 的 不 同 , 有 些 人 会 将 本 是 情感 的 状态 极力 地 进行 掩饰 ， 


因 | 妆 | 多 | 有 | 男 | 交 | 国 || 轴 | 弟 
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而 有 些 人 会 将 本 不 是 某 种 情感 的 状态 进行 从 张 ,极力 小 出 是 情感 状态 。 因 此 ,由 演员 来 
录制 模拟 情感 声音 有 可 能 错误 地 表达 语音 中 情感 的 特点 。 尽 管 这 样 ,目前 所 能 采取 的 方 
法 也 仅 能 如 此 。 

3. 相应 的 支撑 技术 

基于 语音 的 情感 识别 过 程 如 图 6-55 所 示 。 语 音信 和 号 经 数字 化 和 预 处 理 之 后 ,进行 端点 
检测 ,然后 计算 特征 ,这 一 部 分 与 通常 的 语音 处 理 过 程 相 似 。 在 上 述 的 过 程 之 后 ,根据 训练 
和 识别 的 不 同 , 分 别 进行 不 同 的 处 理 : 训练 时 产生 表征 不 同情 感 的 模板 ; 识别 时 ,包含 每 识 
情感 的 语音 与 情感 模板 库 中 的 各 个 模板 进行 比较 ,从 而 确定 相应 的 情感 类 型 。 


数字 化 太 预 处 理 


本 人 i 五 3 于 
端点 检测 语 首 处 理 


识别 结 末 


图 6-55 ”基于 语音 的 情感 识别 过 程 


1) 数字 化 和 特征 计算 

数字 化 过 程 与 其 他 语音 信号 处 理 过 程 相似 ,之 后 特征 也 是 按 幅 计算 的 。 通 党 特征 分 为 
两 类 ,一 为 语音 特征 ,一 为 韵律 特征 。 一 般 来 说 ,语音 中 的 情感 特征 往往 通过 语音 韵律 的 变 
化 表现 出 来 。 例 如 , 当 一 个 人 发 怒 的 时 候 , 讲 话 的 速率 会 变 快 ,音量 会 变 大 ,声调 会 变 高 等 ， 
这 些 都 是 人 们 直接 可 以 感觉 到 的 。 因 此 在 情感 识别 中 ,韵律 特征 起 着 非常 重要 的 作用 。 同 
时 语音 学 特征 也 很 重要 ,因为 发 彰 过 程 中 前 律 特征 和 请 音 特征 紧密 相连 ,仅仅 通过 控制 欧 律 
特征 并 不 可 能 表达 出 情感 来 ,因此 一 般 是 将 两 种 特征 结合 起 来 考虑 。 男 外 ,由 于 请 音信 号 中 
的 情感 信息 或 多 或 少 受 到 语句 词汇 内 容 的 影响 ,所 以 为 了 使 分 析 结 果 消 除 这 方面 的 影响 ,一 
般 都 是 通过 分 析 情 感 语 音 与 不 市 感情 的 平静 声音 的 相对 关系 , 找 出 这 种 相对 特征 的 构造 、 特 
点 和 分 布 规律 ,用 来 处 理 和 识别 不 同 的 情感 语音 信号 。 通 和 常 和 情感 相关 的 语音 特征 包括 : 
言 写 的 振幅 、 共 振 峰 频率 、 基 首 频 率 、 信 号 的 持续 时 间 等 。 

2) 模式 匹配 技术 

许多 模式 识别 中 的 匹配 拉 术 虱 可 以 应 用 到 情怀 识别 中 ,如 采用 最 大 似 然 贝 叶 斯 倘 计 、K 
近邻 方法 .HMM 方法 ,以 及 人 工 神 经 网 络 的 方法 等 。 

4. 情感 分 析 

研究 表明 : 对 生气 、 悉 惧 、 悲 念 、 焦 虑 .高兴 等 类 型 的 情感 , 博 速 .时 长 和 发 音 的 清晰 程度 


对 判定 话 者 的 情感 状态 非常 重要 。 例 如 , 当 话 者 莫 盆 时 语 速 明 显 变 慢 , 而 仍 惯 时 语 速 要 快 于 
其 他 情况 ,焦虑 时 发 育 的 段 长 要 低 于 平均 值 。 基 首 扩 映 了 超 音 段 的 信息 , 它 也 是 最 第 用 的 判 


定 情 感 的 语音 特征 之 一 。 一 些 人 研究 中 ,分 析 了 心理 紧张 (stress) 在 语音 特征 上 产生 的 影 啊 。 
还 有 的 工作 中 ,采用 了 多 通道 信息 来 进行 情怀 研究。 例如 ,MIT 采用 将 首 频 和 视频 信息 相 


结合 来 表达 情感 信息 ,他们 开发 了 一 个 “谈话 头 (talking head) ”来 分 析 音 频 、 视 频 在 情感 表 
达 中 的 作用 。 试 验 表 明 , 在 对 声音 线索 的 敏感 性 上 ,个 体 间 存在 较 大 的 差异 ,对 一 个 实验 
阁 , 其 音频 判断 能 力 的 可 菲 性 仅 为 视频 的 一 半 ; 而 对 夯 一 个 实验 痢 , 其 音频 判断 能 力 明 显 
可 徘 。 对 韵律 和 音质 之 间 关 系 的 人 研究 发 现 , 生 气 和 高 兴 时 的 发 音 在 螨 气 和 沙哑 等 方面 是 
不 同 的 。 

5. 情感 识别 

对 情感 进行 识别 有 很 多 困难 ,对 于 情感 合成 ,只 需要 有 一 个 好 的 参照 实验 者 就 行 , 而 情 
感 识别 必须 对 话 者 风格 的 变化 ,以 及 一 时 兴致 的 变化 等 引起 的 情感 变化 有 具有 兢 健 性 。 从 目 
前 的 情况 看 ,情感 识别 的 识别 率 还 不 高 。 由 于 在 语料库 的 大 小 和 一 致 性 等 方面 存在 差异 ,以 
及 所 采用 的 特征 不 同 , 考 虑 的 时 间 斥 度 及 采用 的 分 类 方法 等 方面 变化 很 大 ,因此 所 采用 的 
方法 也 有 很 大 的 不 同 。 研 究 表明 : 对 正 第 和 生气 , 当 用 一 个 演员 来 模拟 这 些 情感 时 ,可 获 
得 非常 高 的 识别 率 ,大约 能 到 90%; 而 当 用 其 他 人 时 识别 率 降 到 75%。 当 使 用 真实 的 情 
感 语 音 时 ,识别 率 下 降 到 约 65% 。 对 高 兴 ,. 悲伤 .生气 .害怕 和 正常 等 5 种 情感 ,其 识别 率 
为 55%。 

在 进行 情感 识别 时 ,长 时 特征 优 于 短 时 特征 。 有 实验 研究 对 正常 .高 兴 、 生气 .恐惧 、 吃 
怀 和 悲伤 等 6 种 情感 进行 识别 。 分 别 使 用 矢量 量化 .神经 网 络 .高 斯 混合 密度 模型 等 3 种 分 
类 方法 ,特征 是 按 只 使 用 短 时 特征 、 只 使 用 长 时 特征 ,以 及 同时 使 用 长 ` 短 时 特征 进行 的 。 共 
有 5 个 话 者 参加 实验 ,每 个 话 者 的 15 个 句子 用 作 训 练 ,5 个 句子 用 作 测 试 。 结 果 表 明 : 同时 
使 用 长 . 短 时 特征 的 高 斯 混合 密度 模型 方法 性 能 最 好 ,正确 率 为 62%。 实 验 显 示 , 对 6 种 情 
感 , 可 分 为 3 组 : 正常 一 悲伤 .生气 一 慌 惧 .高 兴 一 吃 司 ,它们 之 间 具 有 明显 的 区 分 性 ,而 在 
这 些 组 内 相互 进行 区 分 非常 困难 。 

6. 情感 合成 

为 了 合成 出 模拟 情感 状态 ,一般 至 少 需要 给 出 对 基 音 .时 长 和 词句 进行 一 些 特 殊 控 制 的 
方式 ,这样 才 能 获得 期 望 的 情感 影响 。 通 和 帝 合 成 情感 的 模型 参数 是 从 市 有 情感 的 韵律 增 音 
数据 库 中 基于 规则 而 导出 的 。 目 前 ,语音 合 成 的 日 然 度 较 差 ,通过 对 情感 语音 的 研究 ,可 以 
改进 日 然 度 。 德 国 的 研究 者 用 共振 峰 合成 的 方法 合成 出 了 正常 .生气 .高 兴 、 您 惯 、 翡 伤 、 大 
恶 和 厌倦 等 7 种 情感 状态 的 德语 ; 日 本 的 研究 者 分 别 合 成 了 男女 性 日 语 表 达 的 高 兴 、 生 气 
和 悲伤 情感 的 语音 。 实 验 表 明 ,通过 合成 不 同 的 情感 语音 ,合成 声音 的 质量 得 到 了 很 大 提 
噩 , 因 此 ,情感 语音 合成 也 可 能 成 为 提高 合成 语音 上 月 然 度 的 一 个 突破 口 。 

从 总 体 上 看 ,情感 语音 处 理 这 一 研究 领域 还 处 于 探索 阶段 ,有 很 多 问题 疝 待 解决。 未 来 
本 领域 的 研究 重点 包括 : 情感 语音 语 料 的 有 效 获取 方法 ,情感 分 类 与 建 模 ,评价 方法 等 。 


6.12.4 网 络 环境 下 的 语音 识别 
随 着 网 络 技术 的 日 益 成 熟 , 通 过 Internet 网 络 来 传递 声音 的 IP 电话 技术 发 展 迅 猛 , 已 
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成 为 人 们 日 常 交 流 的 重要 手段 之 一 。 随 着 IP 电话 的 发 展 ,有 关 如 何在 IP 电话 中 进行 语音 
识别 的 研究 引起 了 研究 者 们 的 注意 ,已 成 为 本 领域 的 热点 问题 之 一 。 

IP 电话 由 于 其 工作 方式 的 特点 ,在 传输 中 存在 一 些 额 外 的 信息 损失 ,例如 网 络 中 传输 
语音 都 是 使 用 各 种 声 码 需 ,考虑 到 带宽 的 限制 ,对 所 传输 的 语音 数据 要 进行 压缩 编码 ,这 样 
在 编 解 码 过 程 中 存在 着 信息 的 损失 。 同 时 ,在 网 络 传 输 过 程 中 ,语音 信号 经 过 编码 压缩 后 打 
包 在 网 络 中 传输 ,一般 的 传输 协议 中 语音 包 是 基于 不 可 徘 的 RTP 层 传输 的 ,这 样 会 存在 于 
包 的 情况 ,因而 会 导致 接收 方 获得 到 的 语音 信号 的 音质 受 损 。 此 外 ,数据 包 在 传输 过 程 中 ， 
由 于 网 络 的 拥挤 ,还 会 存在 包 延 迟到 达 的 情况 。 这 是 传统 语音 识别 方法 中 所 没有 涉及 的 
问题 。 

通常 , 包 的 延迟 并 不 影响 语音 波形 的 变化 , 语 首 识别 系统 可 以 在 允许 的 时 间 内 等 竺 延迟 
到 达 的 数据 包 , 然 后 再 进行 识别 ,这样 不 会 对 识别 性 能 造成 太 大 影响 。 因 此 ,了 IP 电话 语音 识 
别 中 主要 考虑 的 是 语音 压缩 和 于 包 造 成 的 影响 ,以 及 如 何 克 服 这 些 影响 的 方法 。 通 过 模拟 
IP 电话 数据 进行 识别 实验 的 研究 表明 ,由 于 语音 编码 造成 的 性 能 下 降 在 15% 一 30% ,而 对 
于 丢 包 率 小 于 5% 的 情况 ,其 所 造成 的 性 能 下 降 小 于 10%。 对 于 ITU 规定 的 几 种 标准 编码 
方式 ,G. 729D、G. 726、G. 729E 和 G. 729 编码 而 言 ,与 通常 的 语音 相 比 ,G. 729D 编码 和 
G.726 编码 方式 会 引起 识别 率 的 较 大 下 降 。 相 对 而 言 ,G. 729E 编码 方式 引起 的 误 识 率 最 
小 ,而 G.729 编码 方式 引起 的 误 识 率 介 于 中 间 。 一 般 而 言 , 低 比 特 率 的 编码 方式 市 来 的 编 
码 损失 较 大 ,因而 引起 的 误 识 率 也 就 较 大 。 当 至 包 率 大 于 10% 时 后 , 随 着 于 包 率 的 增加 , 系 
统 的 识别 性 能 明显 下 降 。 但 在 实际 中 , 丢 包 率 一 般 都 小 于 5%, 因 此 ,由 于 语音 编码 所 引起 
的 语音 识别 性 能 的 下 降 要 大 于 丢 包 时 的 情况 。 

1. 声 码 希 损 失 的 克服 

一 般 来 说 ,对 网 络 上 的 语音 识别 ,其 后 端的 模型 训练 和 模式 匹配 方法 , 同 传统 语音 识别 
中 的 方法 没有 什么 区 别 。 两 者 不 同 的 地 方 在 于 前 并 特征 提取 方法 的 不 同 。 通 党 的 语音 识别 
系统 ,其 特征 参数 是 从 采样 、 分 帧 后 的 语音 波形 数据 中 经 过 短 时 特征 分 析 后 获得 的 ; 而 网 络 
环境 下 的 语音 特征 ,需要 从 经 过 声 码 器 编 解码 之 后 的 压缩 数据 中 获得 。 

声 人 码 妖 是 由 编码 兹 和 人 解码 器 两 部 分 组 成 ,它们 分 别处 于 发 送 端 和 接收 问 。 编 码 兹 主要 
是 对 连续 模拟 的 请 首 信 和 号 进行 压缩 ,以 适合 在 有 限 市 澳 的 条 件 下 进行 请 首 的 传输 。 解 码 柯 
在 接收 端 将 不 缩 的 语音 解码 还 原 成 语音 信号 用 于 播放 。 因 此 ,对 网 络 中 的 语音 进行 识别 ,一 
种 最 容易 想到 的 方法 是 : 先 对 压缩 后 语音 信号 进行 解码 ,然后 按 传统 的 特征 提取 方法 重新 
对 语音 信号 进行 加 窗 .计算 静态 特征 和 动态 特征 等 。 不 同 的 博 音 声 码 硕 有 不 同 的 设计 方法 ， 
它们 在 市 宽 .计算 复杂 性 .质量 等 方面 区 别 较 大 。 基 于 国际 霹 音 编码 标准 G. 726 的 声 码 疾 
是 比较 常用 的 一 种 , 它 的 性 能 较 好 ,解码 后 的 语音 信号 听觉 效果 良好 。 采 用 这 种 方法 进行 语 
音 识 别 的 原理 如 图 6-56 下 部 的 虚线 框 所 示 。 由 于 对 语音 识别 来 说 , 它 并 不 关心 解码 后 是 否 
能 恢复 为 时 域 上 的 语音 信号 ,更 关心 的 是 所 获得 的 特征 参数 能 否 与 语音 识别 模型 的 参数 相 
匹配 。 一 些 人 研究 表明 : 经 过 声 码 右 后 语音 信号 明显 发 生 了 畸变 ,从 而 导致 了 识别 性 能 的 下 
降 。 因 而 这 种 方法 不 是 较 好 的 选择 。 

男 一 种 方法 是 在 接收 端 卫 接 从 压缩 后 的 语音 中 获得 特征 参数 。 例 如 ,对 G. 726 编码 


融 ,由 于 它 是 基于 码 激 励 线 性 预测 CELP 的 方法 ,因此 可 以 从 接收 端 获得 的 量化 的 LP 频谱 
中 ,进一步 推导 出 所 需要 的 用 于 语音 识别 的 特征 参数 。 其 中 所 得 到 的 频谱 包 络 和 从 原始 语 
音 中 获得 的 相同 ,唯一 不 同 的 是 频 谐 包 络 是 被 量化 表示 的 。 但 有 研究 表明 ,这 种 量化 畸变 不 
会 对 语音 识别 性 能 产生 严重 影响 。 图 6-56 上 部 的 虚线 框 中 给 出 了 这 种 方法 的 原理 。 采 用 
这 样 的 方法 ,避免 了 第 一 种 方法 中 先 还 原 语 音信 号 ,上 骨 重 新 计算 特征 时 产生 的 较 大 误差 ; 同 
时 它 还 节省 了 解码 还 原 语音 信号 所 需 的 时 间 。 
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图 6-56 两 种 基于 G. 726 声 码 器 进行 语音 识别 的 前 端 处 理 过 程 


在 网 络 中 进行 语音 识别 ,特征 除了 可 以 采用 MFCC 等 外 ,也 可 以 根据 具体 声 码 器 的 编 
码 方式 ,采用 编码 中 利用 到 的 中 间 特 征 ,如 LSP 特征 、LPC 特征 或 其 他 衍生 出 来 的 特征 ,如 
PARCOR 系数 . 声 道 截面 系数 ,以 及 倒 谱系 数 等 。 

2. 丢 包 损失 的 克服 

对 于 丢 包 现象 ,在 真实 的 网 络 环境 中 很 难 控 制 其 丢失 的 多 少 。 因 此 ,为 方便 研究 , 通 篆 
是 用 一 个 模型 来 模拟 可 控制 的 竺 包 现 象 。 如 用 Gilbert 
或 Elliott 模型 来 近似 模拟 。 图 6-57 给 出 了 一 个 描述 丢 
包 现 象 的 Gilbert 模型 , 它 是 一 个 两 状态 的 马尔 可 夫 模 
相关 的 Pi 状态 ,第 二 个 状态 Ps 对 应 的 丢 包 率 很 高 , 即 
Pi 之 P;。 从 第 一 个 状态 转移 到 第 二 个 状态 的 转移 概率 图 6-57 模拟 包 丢 失 的 模型 
用 P, 表示 ,而 从 第 二 个 状态 到 第 一 个 状态 的 转移 概率 
用 P, 表示 , 则 P, 才 1 一 P,。 这 样 ,从 比较 好 的 Pi 状态 转移 到 状态 P; 的 可 能 性 较 小 。 但 一 
旦 模型 处 于 第 二 个 状态 ,就 不 太 容 易 转 出 第 二 个 状态 ,这 时 就 会 产生 大 量 的 丢 帧 现象 。 

为 处 理 于 包 的 问题 ,通常 在 识别 前 端 加 入 对 丢失 帧 进行 检测 和 估计 的 方法 ,其 结构 如 
图 6-58 所 示 。 它 包括 两 个 阶段 ,第 一 个 阶段 利用 包 检 测 机 制 确定 有 没有 丢 包 现象 发 生 , 如 
果 存 在 丢 包 现象 , 则 在 第 二 阶段 利用 特征 帧 的 一 些 特 性 来 佑 计 被 丢失 的 语音 帧 。 对 丢失 帧 
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的 检测 主要 是 通过 在 特征 和 天 量 中 加 入 一 个 反映 帆 友 号 的 计数 值 ,通过 监测 这 个 帆 序 号 可 以 
确定 丢失 帆 的 位 置 。 此 外 , 米 用 帆 友 号 的 方法 还 有 利于 对 经 过 网 络 中 传 辆 后 乱 友 的 数据 包 


重新 进行 排序 。 
和 [加 
特征 天 量 序列 


图 6-58 网 络 语音 识别 处 理 中 的 前 端 处 理 阶 段 


当 丢 包 现 象 发 生 时 ,最 简单 的 方法 是 用 于 包 前 的 一 帧 数据 蔡 代 丢 包 帆 的 数据 。 复 杂 些 
的 解决 方法 是 应 用 一 些 捅 值 算 法 ,根据 语音 特征 的 轨迹 来 估计 丢 包 语音 帧 的 数据 。 图 6-59 
为 通 闸 使 用 的 用 于 售 计 丢失 帆 的 插值 方法 。 将 特征 矢量 厅 列 (Xo, 关 !，… ,Xn}) 斩 入 到 插值 
天 组 ,特征 矢量 的 每 一 维 单 独 使 用 一 个 插值 送 ,例如 第 m 维 使 用 I,(m)。 这 样 根据 特征 矢 
量 轨 迹 信息 可 以 估计 出 丢失 的 天 量 羽 ,, 其 第 痉 维 的 估计 区) 可 佑 计 如 下 
Xm) = nxn_B (Mm) HEF(72D) ) (6-270) 
式 (6-270) 在 估计 丢失 数据 时 ,使 用 了 其 前 B 个 特征 和 后 下 个 特征 信息 。 需 要 注意 的 是 ,对 
实时 性 的 操作 ,FF 要 尽 可 能 地 小 。 


站 


竺 征 天 量 序列 特征 矢量 估计 


插值 器 组 
图 6-59 丢失 特征 帆 的 插值 


多 项 式 插值 的 方法 有 很 多 ,一 般 使 用 拉 格 明日 插值 ,对 N 十 1 个 特征 矢量 中 的 第 mm 维 ， 
其 捕 值 形式 为 
上 (6-271) 
式 中 , 拉 格 朗 日 系数 L,(7?) 是 N 阶 多 项 式 。 
- 般 为 简化 计算 取 一 阶 拉 格 度 日 多 项 式 , 这 样 有 


2 Eo—&t 3 be 
二 
[bp i fo 


2 (m) (6 
tp 


式 中 ,zx,(m) 是 丢失 的 第 nn 个 特征 矢量 的 第 m 维 参 数 的 估计 ,p 二 n 二 gq; zy Cm) 和 zs《m) 分 
别 是 nn 前 后 两 个 特征 矢量 的 第 m 维 参 数 。 图 6-60 给 出 了 这 种 插值 的 情况 。 
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图 6-60 丢失 特征 帧 的 多 项 式 插值 示意 图 


6.12.5 诺 入 式 语 音 识 列 技术 

随 着 计算 机 软 人 硬件 技术 、 通 信 技 术 和 网 络 技术 等 的 飞速 发 展 , 人 类 进入 了 后 PC 时 代 。 
这 个 时 代 一 个 典型 的 特征 就 是 ,各 种 新 型 的 智能 化 的 设备 日 益 广泛 走 进 和 人们 的 工作 和 生活 ， 
而 人 与 这 些 智 能 终端 之 间 的 自然 ,快捷 、 稳 定 可 靠 的 交互 方式 有 助 于 提高 人 机 交互 的 效率 ， 
增强 人 对 智能 化 设备 的 控制 。 作 为 人 机 交互 最 自然 的 方式 ,语音 技术 的 研究 近年 来 取得 了 
长 足 的 进展 ,其 中 语音 识别 由 于 其 重要 性 和 研究 的 难度 更 成 为 研究 的 热点 。 

通 人 式 博 音 识别 技术 是 指 应 用 各 种 先进 的 短处 理 磊 在 板 级 或 是 忆 片 级 用 软件 或 便 件 实 
现 语 音 识 别 技 术 。 语 音 识 别 系统 的 舱 入 式 实 现 要 求 算 法 在 保证 识别 效果 的 前 提 下 尽 可 能 优 
化 ,以 适应 甬 人 式 平 台 存 储 资源 少 , 实 时 性 要 求 高 的 特点 。 实 验 室 中 高 性 能 的 大 词汇 量 连续 
语音 识别 系统 代表 当今 语音 识别 技术 的 先进 水 平 。 但 由 于 艇 入 式 平台 资源 和 速度 方面 的 限 
制 ,其 舱 入 式 实 现 沿 不 成 熟 。 而 中 小 词汇 量 的 命令 词语 首 识别 系统 由 于 算法 相对 简单 ,对 资 
源 的 需求 较 小 , 旦 系统 识别 率 和 项 健 性 较 高 ,能 满足 大 多 数 应 用 的 要 求 ,因而 成 为 退 入 式 应 
用 的 主要 选择 。 般 人 式 系统 的 便 件 通常 是 用 性 能 比较 高 的 数字 信号 处 理 需 (Digital Signal 
Processor,DSP) 来 实现 ,如 采用 TMS320 系列 的 DSP。 

目前 ,在 租 入 式 平台 实现 的 主要 是 对 系统 的 运算 资源 和 存储 资源 要 求 比较 低 的 特定 人 
扳 立 词语 音 识 别 系统 。 而 在 现实 中 ,更 多 的 语音 识别 应 用 要 求 系统 具有 非特 定 人 的 特点 。 
相对 而 言 ,特定 人 语音 识别 系统 可 以 对 整 词 进行 声学 建 模 ,识别 则 采用 简单 的 DTW 等 匹配 
算法 ,这 对 小 词汇 量 识 别 系统 的 实现 效果 比较 理想 。 其 缺点 是 ,如 果 词 表 更 换 , 就 要 求 采集 
大 量 数据 ,重新 训练 模型 ,日 训练 好 的 模型 又 具有 特定 人 的 局 限 性 。 目 前 在 租 入 式 语 音 识别 
研究 中 ,非特 定 人 识别 系统 的 研究 是 热点 。 

由 于 般 入 式 请 首 识 别 系 统 通 第 是 应 用 于 某 一 特定 的 领域 ,因此 可 以 将 识别 的 词 表 限定 
在 一 定 的 范围 内 ,这 样 可 减少 数据 存储 空间 、 搜 索 空 间 及 运算 量 。 降 低 采 样 率 也 可 以 减少 
据 量 。 实 验 表 明 , 对 中 小 词汇 量 , 采 样 率 从 16kHz 降 到 8kHz 所 造成 的 识别 率 下 降 不 超过 
1% ,但 可 以 节省 语音 识别 前 端 50% 的 动态 存储 空间 ,减少 运行 时 识别 前 端 25% 的 计算 量 。 
对 于 声学 特征 参数 ,研究 表明 : 使 用 “能 量 十 MFCC 十 一 阶 差 分 ” 共 26 维特 征 可 以 取得 很 好 
的 识别 性 能 , 它 比 使 用 通常 39 维特 征 时 ,节省 了 1/3 的 特征 缓冲 区 空间 。 

对 散 入 式 语音 识别 系统 ,声学 人 处 理 单元 都 选用 比较 小 的 子 词 单元 ,例如 对 汉语 语音 , 选 
用 考虑 上 下 文 的 声母 ,韵母 单元 。 识 别 方法 可 以 采用 DTW 方法 或 离散 HMM 方法 。 对 系 
统 的 训练 可 采用 基于 最 小 分 类 的 判别 学 习 方 法 。 由 于 训练 算法 都 是 离线 实现 的 ,因此 可 在 
不 增加 在 线 识 别 时 系统 代价 的 同时 , 较 大 幅度 地 提高 系统 性 能 。 租 入 式 系统 经 常会 应 用 到 
噪声 比较 强 的 场合 ,因此 ,有 效 的 端点 检测 及 噪声 处 理 方 法 是 非常 必要 的 。 同 时 ,在 这 种 系 
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统 中 拒 识 算法 必 不 可 少 , 比 如 在 手机 应 用 中 ,不 应 该 让 语音 识别 系统 将 识别 错 的 电话 号 但 拨 
出 ,以 人 饱 造 成 用 户 无 请 的 损失 。 在 实际 应 用 中 ,拒绝 一 个 错误 识别 或 集 外 词 , 并 提醒 用 户 重 
新 输入 , 比 输出 错误 结 来 更 能 让 人 接受 。 对 识别 拭 法 ,一 般 采 用 人 简化 的 Viterbi Beam 搜索 

榜 入 式 语 音 识别 系统 可 广泛 用 于 语 首 导航 、 硬 首 拔 号 、 淹 能 家 电 和 玩具 的 堵 首 控制 。 日 
前 国外 已 有 了 了 相应 的 产品 问世 ,国内 市 场 上 也 出 现 了 有 具备 坪 音 识别 功能 的 手机 。 


6.13 HTK 工具 介绍 


由 于 语音 识别 过 程 中 涉及 的 算法 比较 复杂 ,为 了 让 研究 者 能 够 迅速 措 建 一 套 语 首 识别 
系统 ,许多 机 构 着 力 于 开发 集成 语音 信号 预 处 理 , 特 征 参 数 提取 ,模型 训练 和 识别 解码 等 一 
系列 功能 的 工具 。 其 中 最 为 者 名 、 应 用 最 为 广 沁 的 是 HTK。 

HTK 最 早 由 剑桥 大 学 开发 ,用 于 建立 基于 HMM 的 大 规模 语音 识别 系统 。1993 年 ， 
Entropic Research Laboratory 获得 了 HTK 销售 权 ,并 于 1995 年 获得 开发 权 。1999 年 , 微 
软 买 下 了 Entropic 及 其 所 属 的 HTK 产品。 后 来 微软 把 HTK 的 授权 返还 给 剑桥 大 学 工程 
系 (CUED) ,这 样 CUED 可 以 重新 发 布 HTK ,并 且 提 供 开 发 的 支持 。 目 前 该 软件 集 为 开放 
源 代 码 ,可 以 在 UNIX/Linux 和 Windows 操作 系统 上 使 用 。HTK 提供 一 系列 命令 函数 用 
于 语音 识别 ,使 用 者 可 以 通过 需要 进行 选择 ,并 建立 起 语音 识别 系统 。 

HTK 包括 一 系列 的 运行 库 和 工具 ,使 用 基于 ASNIC 模块 化 设计 ,可 以 实现 语音 录制 、 
分 析 ,标示 、HMM 的 训练 .测试 和 结果 分 析 。HTK 以 源 代码 的 方式 发 布 ,开发 者 在 其 官方 
网 站 上 下 载 到 最 新 版 本 的 代码 之 后 , 即 可 在 自己 的 操作 系统 上 编译 获得 可 执行 工具 。 同 时 ， 
HTK 还 有 相应 的 使 用 手册 HTKBOOK ,根据 HTKBOOK 中 的 说 明 , 即 可 配置 各 项 命令 参 
数 ,实现 搭建 语音 识别 系统 中 所 必需 的 各 项 功能 。 

HTK 中 各 个 模块 的 功能 如 表 6-6 所 示 。 


表 6-6 HTK 中 的 各 模块 功能 


模块 名 称 功 能 
HShell 负责 用 户 的 输入 ,输出 和 操作 系统 的 接口 
HMem 负责 内 存 的 管理 

HMath 提供 数学 函数 的 支持 

HSigP 提供 语音 分 析 所 需 的 处 理 操 作 

HLabel 提供 标签 文件 的 接口 

HLM 为 语音 模型 文件 的 建立 提供 接口 

HNet 负责 创建 语法 网 络 文件 

HDict 负责 建立 词汇 的 发 音 词 典 

HVQ 主管 矢量 量化 VQ 码 本 的 建立 

HModel 负责 HMM 的 定义 与 建立 

0 可 以 将 所 有 的 输入 、 输 出 语音 文件 固定 在 波形 级 别 ,为 了 保持 接口 的 一 致 性 ， 


HTK 还 提供 其 他 许多 种 文件 格式 


模块 名 称 
Haudio 
HUtil 
HGraf 
HAdapt 
Hrec 
Htrain HFB 


模块 提供 了 直接 音频 输入 的 支持 

负责 提供 多 个 关于 HMM 模型 的 应 用 例 程 
提供 简单 的 图 形 交 互 

负责 为 多 种 HTK 自 适 应 提供 支持 

负责 对 语音 识别 处 理 函 数 模块 提供 支持 
负责 提供 对 各 种 HTK 训练 工具 的 支持 


整个 HTK 的 工作 过 程 包 括 数据 准备 、 模 型 训练 和 识别 过 程 。 其 中 数据 准备 和 模型 训 
练 过 程 如 图 6-61 所 示 。 


数据 
惟 备 
首 索 列表 | | 标记 文件 特征 文件 
Viterbi 生 成 初始 模型 
模型 
训练 


Baum-welch 训 练 模型 


单一 混合 度 模型 标记 文件 三 音素 列表 
Monophone Triphone Triphone | 


| 单一 混合 度 模 型 


Triphone 


Baum-welch 训 练 模型 
混合 度 增 加 


图 6-61 基于 HTK 的 数据 准备 和 模型 训练 流程 


在 所 有 命令 中 ,有 一 些 选项 是 用 大 写字 母 表 示 , 对 所 有 的 命令 履 适 用 。 这 些 选项 如 


表 6-7 所 示 。 
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表 6-7 通用 的 命令 选项 


标准 选项 会 民 
-B 将 HMM 宏 定 义 的 文件 用 二 进 制 存放 

-C cf 表示 配置 文件 是 cf 

-D 显示 配置 变量 

-E dir [extj 在 目录 dir 中 搜索 宏 定 义 的 父 变换 

-F fmt 设置 源 数据 文件 的 格式 为 fmt 形式 

-G fmt 设置 源 标注 文件 的 格式 为 fmt 形式 

-H mmf 装 人 HMM 的 安定 义 文 件 mmf 

-TI mlf 装 人 主 标 注 文件 mlf 


-J dir [ext] “| 在 目录 dir 中 搜索 变换 宏 定义 文件 
-K dir [ext] “| 将 变换 后 的 模型 存放 在 dir 目录 中 


-L dir 在 dir 目录 中 寻找 标注 文件 

-M dir 将 输出 的 HMM 宏 定 义 存放 在 目录 dir 中 
-O fmt 将 输出 数据 文件 的 格式 设 定 为 fmt 

于 人 将 输出 的 标注 文件 的 格式 设 定 为 fmt 

-S scp 表示 使 用 命令 行 脚本 文件 scp 

:于 各 设置 跟踪 的 级 别 为 N 

-V 显示 版 本 信息 

-XX ext 将 标注 文件 的 扩展 文件 名 称 为 ext 


6.13.1 数据 准备 阶段 


数据 准备 是 搭建 语音 识别 最 基础 的 工作 ,用 来 进行 数据 准备 的 工具 有 以 下 几 种 。 

HBuild: 转换 各 种 不 同 格式 的 代表 语言 学 模型 的 文件 ,并 且 输 出 标准 HTK 网 格格 式 。 

HCopy: 数据 文件 格式 的 转换 。 

HDMan: 利用 各 种 数据 源 来 生成 发 音 词典 。 

HLEd: 编辑 标注 文件 。 

HList: 显示 HTK 文 持 的 各 种 格式 存放 的 效 据 源 中 的 内 容 。 

HLStats: 从 一 组 HTK 格式 的 标注 文件 中 进行 各 种 统计 ,生成 简单 的 博 言 学 模型 。 

HParse: 根据 由 扩展 的 Backus-Naur 形式 (EBNF) 定 义 的 一 组 可 重 写 的 规则 摘 述 文 
件 ,生成 词 一 级 的 网 格 文件 。 

HSGen: 根据 以 标准 HTK 网 格格 式 定 义 的 词 网 络 月 动 随 机 产生 一 组 句子 。 

HSLab: 对 语音 标注 文件 进行 标注 的 编辑 需 。 

语音 识别 系统 的 数据 通常 称 为 语 料 , 语 料 又 分 为 声音 语 料 和 文本 语 料 。 声 音 语 料 主 要 
用 来 进行 声学 模型 的 训练 ,文本 请 料 主 要 用 来 进行 语言 学 模型 的 训练 。 

语 料 的 来 源 有 三 种 ,一 种 是 回 相 关 科 人 研 机 构 购 买 , 另 一 种 是 参加 国内 外 的 语音 系统 的 比 
赛 ,获得 赠送 部 分 语 料 ,最 后 一 种 是 自己 人 工 录制 ,并 进行 标注 和 整理 。 下 面 详细 介绍 利用 
HTK 工具 进行 语 料 录 制 的 具体 方式 。 

1. 定义 任务 语法 

在 开始 录制 语 料 之 前 ,首先 需要 确定 任务 语法 。 当 需要 为 某 一 个 特定 任务 搭建 一 套 语 
音 识别 系统 时 ,需要 用 规范 化 的 语言 来 描述 这 个 任务 。 这 里 以 创建 一 个 语音 拨号 系统 为 例 ， 


其 任务 语法 表示 为 如 图 6-62 所 示 。 


$digit = ONE | TWO | THREE | FOUR | FIVE | 
SIX | SEVEN | EIGHT | NINE | OH | ZERO; 

$ name = [SUE]LAW | 

[JULIAN ]TYLER 


[DAVE ] WOOD | 
[PHIL |LEE | 


[STEVE | YOUNG; 
( SENT — START ( DIAL <$ digit> | (PHONE|CALL) $ name) SENT — END) 


图 6-62 语音 拨号 任务 语法 


上 图 规范 了 打 电 话 的 语法 格式 ,其 中 SENT-START 和 SENT-END 只 是 句子 的 开始 
和 结束 标志 。 用 户 打 电话 时 可 以 直接 说 DIAL 后 面 跟 数字 形式 的 电 
话 号 码 或 者 CALL(PHONE) 某 个 人 名 字 的 方式 来 实现 语音 拨号 的 | w=-311-62 
功能 。 图 6-62 为 语法 的 高 层 表示 ,可 以 通过 HTK 的 HParse 来 解 | I=0W= SENT- END 
析 成 HTK 可 用 的 底层 表示 。 假 设 图 6-62 的 任务 语法 存在 于 文件 | 


graln 中 ' 天 要 将 抵 层 表示 写 到 文件 wdnet 中 ,由 HTK 命令 为 J=0S=2E=0 
HParse gram wdnet 可 三 心 1 5S=0E=29 

生成 的 wdnet 文件 内 容 形 式 如 图 6-63 所 示 。 6-63 ”语法 网 络 的 
其 对 应 的 图 形 表示 如 图 6-64 所 示 。 文本 表示 


A 
A 


> 


call | 


图 6-64 语法 网 络 的 图 形 结构 表示 


从 图 6-64 可 以 更 加 清晰 地 了 解 整 个 语法 结构 。 然 而 对 大 词汇 量 连续 堵 首 识别 系统 ,人 花 
费 大 量 的 精力 去 规范 一 个 语法 网 络 是 很 不 科学 的 ,也 会 降低 系统 的 可 扩展 性 ,所 以 我 们 通过 
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语言 学 模型 来 构建 培 法 网 络 , 即 在 词 表 中 一 个 词 后 面 有 可 能 是 词 表 中 的 任何 词 。 

2. 构造 字典 

字典 应 包 合 识别 任务 中 所 有 可 能 出 现 的 词 的 集合 ,同时 也 明确 了 每 个 词 的 发 音 结构 。 
执行 HTK 命令 HDMan 可 以 生成 与 任务 相关 的 发 音字 典 。 


HDMan 一 有 —wwlist 一 了 monophonesl -1 dlog dictl beep names 


其 中 ,beep 文件 是 可 以 下 载 到 的 发 首 字 典 , 记 录 了 大 部 分 单词 的 发 首 ,names 文件 是 手工 制 
作 的 专 有 人 名 的 发 音 ,wjlist 文件 是 包含 训练 语 痛 数据 中 的 所 有 词 的 文件 。-m 选项 表示 可 
以 对 多 个 字典 的 发 音 进 行 合 并 ; -w pr wlist 文件 。monophonesl 是 用 到 
的 音素 的 列表 文件 ,-1 表示 后 面 写 人 的 dlog 文件 是 程序 运行 过 程 中 产生 的 日 志文 件 。 最 后 
生成 的 字典 文件 dictl 如 图 6-65 所 示 。 


CALL K ao 1 sp 

DAVE d ey V sp 

DIAL d ay ax 1] sp 
EIGHT ey 七 SP 

FIVE f ay v sp 

FOUR f ao sp 

FOUR f ao sp 

JULIAN Jh uw1 ia n sp 
JULIAN Jhuwlyaxn sp 
LAW 1 ao sp 

SENT-END sil 
SENT-START si1l 

SEVEN s ehvn sp 
SIXs ihks sp 

STEVE st iyv sp 

SUE s uw sp 

SUE s Y uw sp 

THREE th r iy sp 


图 6-65 HTK 字典 文件 
3. 录制 语音 文件 
完成 上 面 的 工作 后 ,就 可 以 进行 录制 语 料 工 作 了 ,HTK 中 的 HSGen 可 以 用 来 生成 符 
合 场 法 规范 的 例句 : 
HSGen 一 上 ~-n140 wdnet dictl > trainprompts 


其 中 ,-n 后 面 的 参数 140 表示 需要 生成 的 例句 的 数量 ,dictl 就 是 上 面 步 又 所 产生 的 宇 煤 文 
件 ,最 后 生成 的 例句 保存 在 trainprompts 文件 中 。 生 成 的 文件 如 图 6-66 所 示 。 


: PHONE YOUNG 
. DIAL OH SIX SEVEN SEVEN OH ZERO 
. DIAL SEVEN NINE OH OH EIGHT SEVEN NINE NINE 


. DIAL SIX NINE SIX TWO NINE FOUR ZERO NINE EIGHT 
. CADLL JULIAN ODELL 


图 6-66 符合 任务 语法 的 例句 


很 明显 ,图 6-66 的 例句 都 是 符合 前 面 所 定义 的 任务 语法 的 , 接 下 来 可 以 按照 上 面 的 例 
句 , 调 用 HSLab 命令 录制 声音 语 料 。 


HSLab . \data\Train\speech\S0001 


这 条 命令 运行 之 后 ,在 Windows 下 会 日 动弹 出 一 个 录 首 窗口 ,与 普通 的 录音 程序 类 似 , 这 里 
不 做 详细 介绍 。 最 后 录音 文件 被 保存 在 .\data\Train\speech 目录 下 ,文件 名 为 S0001。 

4. 数据 标注 

上 一 步 中 录制 的 原 怒 声音 语 料 ,不 能 直接 用 于 声音 模型 的 训练 或 者 测试 。 一 个 重要 的 
工作 是 对 声音 请 料 进行 标注 , 即 按照 HTK 能 解析 的 格式 标注 声音 语 料 所 对 应 的 真实 语义 
言 轧 。 下 接 进 行人 工 标 往 是 一 件 很 频 琐 的 事情 ,现在 很 多 增 音 机 构 都 有 专门 的 数据 标注 人 
员 。HTK 提供 了 一 个 脚本 对 上 一 录音 步骤 中 产生 的 例句 进行 目 动 标注 的 脚本 。 其 实现 方 
式 如 下 : 


perl .\scripts\prompts2mlf .\labels\trainwords. mlf .\labels\trainprompts 


其 中 ,.\scripts\prompts2mlf 是 位 于 .\scripts 目录 下 的 名 称 


为 prompts2mlf 的 脚本 ,. \labels\trainprompts 是 需要 解析 的 下 py pa 
源 文件 , 即 上 一 步骤 中 HSGen 所 产生 的 文件 。 最 后 生成 的 标注 ONE 
文件 为 trainwords. mlf{ ,在 label 目录 下 。trainwords. mlf 文件 格 人 
式 如 图 6-67 所 示 。 OF 

标注 文件 的 第 一 行 是 注释 ,表明 这 是 一 个 mlf 文件 (标注 0 
文件 ) ,HTK 中 的 标注 文件 都 是 以 mlf 为 扩展 名 。 接 下 来 是 每 | 
句 的 句子 标注 ,其 具体 形式 为 声音 语 料 所 在 路 径 ,声音 语 料 对 he 
应 的 内 容 。 句 子 与 句子 之 间 以 半角 句号 为 分 隔 符 。 

5. 特征 提取 

第 用 的 特征 有 MEFCC(Cmel frequency cepstral coefficients ) 、 
PLP( 感 知 线性 预测 系数 ) 等 ,同时 还 会 用 到 这 些 系 数 的 一 阶 和 ie 
二 阶 delta 系数 。 

HTK 提供 HCopy 命令 来 实现 特征 参数 的 提取 功能 。 在 i 
提取 特征 时 ,需要 定义 一 个 符合 HTK 格式 的 配置 文件 ， FIGURES 
HCopy 按照 配置 文件 中 设 定 的 参数 来 提取 相应 的 特征 参数 。 eg 


-个 典型 的 配置 文件 如 图 6-68 所 示 。 
下 面 简要 介绍 图 6-68 中 几 项 参数 的 含义 ,配置 文件 的 前 

半 段 为 输入 文件 信息 : SOURCEKIND 表示 语音 文件 的 种 类 ,本 例 中 采用 的 是 波形 文件 ; 
SOURCE-FORMAT 表示 语音 文件 的 格式 ,本 例 中 采用 的 是 wav 格式 。 配 置 文件 后 半 段 为 
特征 项 提取 信息 ,TARGETKIND 表示 提取 的 特征 参数 为 MFCC 矢量 ; TARGETRATE 
表示 输出 特征 矢量 的 周期 ,本 例 中 选取 100 000 ,相当 于 单位 是 10ms;， WINDOWSIZE 表示 
加 窗 宽度 ,加 窗 可 以 减 小 帧 边界 不 连续 所 造成 的 误 善 ,本 例 中 选取 窗 长 25ms; 
USEHAMMING 表示 窗 的 类 型 是 汉 明 窗 ; PREEMCOEF 表示 预 加 重 系 数 , 本 例 中 设置 为 
0. 97。 


图 6-67 ”声音 语 料 的 标注 文件 
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# [ MODULE |] PARAMETER = VALUE 
SOURCEKIND = WAVEFORM 
SOURCEFORMAT = WAV 
2MEANSOURCE 
TARGETKIND MFCC E DA 
TARGETRATE 100000.0 # frame period = 10msec 
SAVECOMPRESSSED = 工 
SAVEWITHCRC = 工 
WINDOWSIZE 250000.0 # window size = 25msec 
USEHAMMING 
PREEMCOEF 0 97 # lst order preemphasis, coefficient = 0.97 
NUMCHANS # num. of filterbank channel = 26 
CEPLIFTER = 2: # num. of cepstra = 22 
NUMCEPS = - # num. of MECC coefficient = 12 
ENORMALIZE 9 #9 energy normalization (live: F,otherwise: T) 
ALLOWXWRDEXP : # Needed for cross word systems 
FORCECXTEXP # Needed for cross word systems 


图 6-68 配置 文件 内 容 
提取 特征 矢量 的 命令 为 
HCopy -T1 -Ceconfig -SsS codetr. scp 


其 中 ,config 文件 即 为 图 6-68 所 示 的 配置 文件 。 男 一 文本 文件 codetr. scp 指定 训练 及 输入 
和 输出 文件 列表 。 执 行 HCopy 后 ,会 将 codetr. scp 文件 左 侧 的 语音 数据 按 config 的 配置 
提取 特征 ,并 存 人 codetr. scp 文件 右 侧 特 征文 件 中 。 

6. 文本 语 料 获 取 

文本 博 料 的 获取 过 程 相 对 人 答 单 很 多 ,只 需要 收集 跟 任 务 坪 法 相关 的 文本 信息 就 可 以 。 
在 当前 成 熟 的 互联 网 环境 下 , 依 徘 中 大 的 搜索 引擎 ,这 是 很 容易 办 到 的 。 但 需要 将 原始 文本 
语 料 的 词 与 词 之 间 加 上 空格 ,这 样 才 能 耳 接 给 HTK 语言 学 模型 的 训练 工具 进行 处 理 。 


6.13.2 模型 训练 阶段 


用 来 进行 模型 训练 和 优化 的 工具 有 以 下 几 种 。 

HCompV: 用 来 统计 训练 数据 中 的 全 局 均值 与 方差 。 

HERest: 利用 Baum-Welch 算法 对 HMM 模型 进行 一 次 散人 和信 式 训 练 (Embedded 
Training), 

HEAdapt: 利用 MLLR 或 /和 MAP 方法 来 对 HMM 模型 进行 自 适应 。 

HHEd: 直接 对 HMM 模型 进行 各 种 编辑 和 优化 操作 ,例如 改变 模型 类 型 、 上下文 相 关 
建 模 \ 构 造 决 东 树 ,增加 混合 数目 等 。 

HInit: 根据 一 组 观察 天 量 序 列 对 单个 HMM 模型 进行 初始 参数 佑 计 。 

HQuant: 构造 HTK 格式 的 VQ 人 码 表 ，。 

HRest: 根据 一 组 观 罕 矢 量 厅 列 对 单个 HMM 模型 进行 Baum-Welch 人 参数 重 佑 。 

HSmooth: 对 一 组 上 下 文 相 关 共 享 混合 或 离散 HMM 模型 进行 删除 插入 平滑 ，。 


1. 声学 模型 训练 

声音 语 料 准 备 好 后 ,就 可 以 进行 声学 模型 的 训练 , 即 HMM 模型 的 训练 。 声 学 模型 的 
训练 是 语音 识别 中 非常 重要 的 一 环 , 其 训练 过 程 比较 复杂 ,下 面 介 绍 其 详细 步骤 . 

1) 创建 单 音 系 HMM 模型 

这 里 需要 定义 一 个 初始 HMM 模型 ,这 个 初始 模型 的 参数 并 不 重要 , 它 的 目的 只 定义 
HMM 的 初始 结构 。 对 于 基于 音素 的 系统 ,比较 常用 的 HMM 初始 结构 为 含有 5 个 状态 ， 
状态 转移 为 从 左 到 右 ,并 且 没 有 蜂 状 态 之 间 的 转移 。 其 中 在 第 一 个 起 始 状 态 和 最 后 一 个 结 
束 状 态 时 不 产生 观察 值 。 每 个 状态 是 通过 一 个 高 斯 模型 来 定义 (更 高 级 的 ,可 以 定义 一 个 状 
态 为 混合 高 斯 模型 ) ,最 后 的 HMM 的 文本 结构 如 图 6-69 所 示 。 


~o<VecSize> 39 <MECC 0 D A> 
~~h "proto” 


< BeginHMM > 

< Numoctates > 3 

< Sate > 2 

< Mean> 39 

0.0 (x39) 
<Variance> 39 

1.0 (x39) 

< State> 3 

< Mean> 39 

0.0 (x39) 

< Varlance> 39 

1.0 (x39) 

< State> 4 

< Mean> 39 

0.0 (x39) 

< Varlance> 39 

1.0 (x39) 

< TransP > 5 
0.01.00.00.00.0 
0.00.60.40.00.0 
0.00.00.60.40.0 
0.00.00.00.7 0.3 
0.00.00.00.00.0 
< ENndHMM > 


图 6-69 初始 HMM 模型 
由 图 6-69 中 可 以 看 出 ,每 个 特征 矢量 的 维 数 是 39, 即 初始 的 13 维 的 MFCC 加 上 它 的 
- 阶 和 二 队 差 分 系数 。 定 义 了 HMM 的 初始 结构 后 ,就 需要 对 其 高 斯 参数 进行 初始 化 。 
HTK 利用 HCompV 进行 初始 化 : 


HCompV —C config -ff0.01 -m 一 Strain.scp —M.\hmms\hmm0 proto 
其 中 ,config 为 配置 文件 ,train. scp 为 提取 的 特征 和 拓 量 文件 列表 ,HCompV 会 浏览 train. scp 


中 的 所 有 文件 ,并 计算 ede 同时 将 原始 HMM 文件 proto 中 高 斯 参数 的 均值 和 方 
差 设 置 成 这 一 平均 仁 。 这 条 命令 将 会 在 hmms\hmmo0 目录 下 生成 两 个 文件 ,一 个 是 更 新 后 
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: WT 


的 proto, 男 一 个 是 截止 宏 ,这 个 截止 宏 是 全 局 平均 方差 的 0.01 售 ,后续 的 训练 过 程 中 所 有 
的 方差 值 将 不 能 小 于 这 个 数 。 其 中 -{f 选项 表示 将 方差 下 限 设置 成 全 局 方差 的 0.01 售 。 

如 果 和 完成 后 续 训 练 , 还 需要 两 个 文件 。 一 个 是 主 宏 文件 MMF(Master Macro File) , 文 
件 名 为 hmmdefs ,该 文件 可 以 通过 手动 为 每 个 音 系 复制 proto 中 的 HMM 定义 来 完成 ,如 
图 6-69 所 示 。 态 一 个 是 全 局 宕 文件 ,其 文件 形式 如 图 6-70 所 示 。 


Fy 


<VECSIZE> 39 <MFCC 0 D 及 > 


Vy varFloorl 
< Variance> 39 
4.492153e— 001 2.800227e 一 001 … 


图 6-70 全 局 宏文 件 


搂 下 来 需要 利用 HERest 命令 对 HMM 参数 进行 重 估 。 通 常 有 两 种 方法 : 一 种 是 直接 
利用 HERest 进行 艇 入 式 训 练 ; 为 一 种 是 痛 先 根据 基 元 的 标注 信息 ,利用 Hlnit 和 HRest 
训练 出 初始 模型 ,然后 再 利用 HERest 做 进一步 的 Baum-Welch 参数 重 佑 。 

(1) 利用 HERest 进行 嵌入 式 训 练 。 


HERest —C config - I phones0. mlf -七 250.0 150.0 1000.0 - Strain. scp —- H .\hmms \hmml \ 
macros —H.\hmms\hmml\hmmdefs 一 M .\hmms\hmm2 .\lists\monophones0 


上 述 命 令 中 phones0. mlf 是 音素 级 别 的 标注 文件 ,-t 后 面 的 参数 都 是 训练 时 的 剪 梳 参 
数 ,进行 剪 校 的 好 处 是 可 以 过 滤 掉 概率 低 的 路 径 来 减少 计算 量 。 最 后 生成 新 的 HMM 模型 
hmmdefs 和 全 局 宏文 件 macros。 这 里 训练 数据 文件 的 路 径 存 放 在 train. scp 文件 中 。 

这 一 训练 步骤 进行 两 次 到 三 次 即 可 ,此 时 可 认为 模型 基本 收敛 。 

(2) 利用 标注 的 训练 。 利 用 标注 数据 进行 训练 的 过 程 稍微 复杂 一 些 , 图 6-71 表示 出 训 
练 过 程 的 流程 。 图 6-72 为 上 下 文 相 关 模 型 训练 流程 。 


HMM 原 型 定义 


训练 数据 库 


F 下 文 无 
关 标注 文件 | 


”上下文 无 关 模型 | 


图 6-71 上 下 文 无 关 模 型 的 利用 标注 文件 训练 流程 


2) 创建 三 音素 模型 
单 音素 模型 损失 了 语 料 中 的 上 下 文 关联 信息 ,解决 这 一 问题 的 办 法 是 创建 三 音素 模型 。 


上 下 文 无 关 模 型 


HHED( 生 成 下文 
相关 模型 ) 


HERest(5 次 迷 代 训练 ) 


下 直到 无 关 标 
注 文 件 mlf 


HLEd 


训练 数据 库 


上 下 文 相关 标 HHED( 生 成 共享 模型 ) 
注 文 件 mlf 


HERest(5 次 迁 代 训练 ) 


状态 共享 上 下 文 相关 模型 


图 6-72 上 下 文 相关 模型 训练 流程 


其 方法 是 通过 简单 的 复制 单 音 系 模 型 ,并 进行 重 佑 训练 来 完成 。 a HERest 进行 重信 
之 前 ,需要 将 单 音 于 级 别 的 标注 文件 转换 成 三 音素 级 别 的 标注 文件 。 这 项 操作 可 以 通过 调 
用 HLEd 命令 来 完成 。 


HLEd 一 mtriphones —1” ~ i wintri.mlf aligned.mlf 


其 中 ,aligned. mlf 是 原始 单 音素 标注 文件 ,wintri. mlf 是 最 后 生成 的 三 音素 文件 ,其 形式 如 
图 6-73 所 示 。-n 选项 表示 后 面 接 的 triphones 是 生成 的 三 音 隶 列表 ,其 形式 如 图 6-74 所 
示 。-] 表示 输出 标注 文件 的 路 径 信息 ,一 般 默认 情况 下 为 当前 路 径 。 当 其 后 接 " 时 ,如 果 文 
件 名 为 XXX ,表示 在 输出 的 主 标注 文件 (MLF) 中 文件 的 路 径 信 息 为 . /XXX。 


井 !MLEF'! 间 
"* /Ss0001. lab" 
sil 

过 十 ay 

过 一 ay 十 aX 
ay — ax+t+l] 
ax— 1 

Sp 

ey 十 七 
ey 一 十 

SP 

于 十 ay 

于 一 Bay 十 T 
ay 一 了 T 

SP 

Sil. 


图 6-73 三 音素 形式 的 标注 文件 


sil 

d+ ay 

d— ay+ ax 
ay — ax+l]l 
ax— 1 

sp 

ey 二 + 七 

ey 一 七 


于 十 ay 


王 一 ay 十 T 
ay 一 T 
z+ 1a 
下 
1a 一 工 十 OW 
r— Ow 
s+ 1h 


图 6-74 三 音素 列表 
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然后 需要 用 HMM 编辑 命令 HHEd 来 编辑 : 
HHEd —H.\hmms\hmm9\macros — H .\hmms\hmm9\hmmdefs —M .\hmms\hmml0 mktri, hed . \lists\ 
monophones1l 


上 面 命令 完成 对 HMM 模型 的 调整 ,将 原先 在 .\hmms\hmm9\ 下 的 HMM 定义 文件 根 
据 mktri. hed 定义 的 规则 ,调整 成 新 的 HMM 定义 文件 存放 在 .\hmms\hmml0o 下 。 其 中 
mktri. hed 定义 了 如 何 生成 三 音 系 的 HMM 模型 ,其 内 容 如 图 6-75 所 示 。 


CL triphones 
TIT ah{( 一 ah+ ,ah+“," -ah).transp} 
TIT ax{{ 一 az+ ,ax+ ， 一 8 .transbl 


TIT ey1!{( -evyvt+ ” ，ey+ ”“，” - ey).transp} 
TIThit -b+ ,b+ 一 hbD).transbl 
TITay{(* -ayt+*,ay+*,* -ay).transp} 


图 6-75 mktri. hed 内 容 


图 6-75 的 CL 命令 表示 复制 三 音 系 列表 triphones 中 的 音素 ,TI 命令 规定 了 具体 哪些 
音素 的 绑 定 转移 概率 矩阵 可 以 绑 定 。 

最 后 调用 HERest 命令 来 进行 参数 重 佑 ,其 方法 同上 ,只 是 标注 文件 和 音 对 文件 都 符 换 
成 三 音 聂 的 。 

至 此 已 经 初步 建立 了 三 音素 的 HMM 模型 。 要 想 使 三 音素 的 HMM 模型 可 以 实用 ,还 
需要 继续 进行 HMM 参数 的 优化 。 

在 训练 过 程 中 ,由 于 三 音 又 模型 数量 比 单 音 系 模型 大 得 多 ,在 语 料 有 限 的 前 提 下 ,很 多 
三 音 系 HMM 模型 得 不 到 充分 训练 ,会 产生 大 部 分 模型 方差 只 能 用 上 面 提 到 的 截止 方差 来 
蔡 代 。 一 般 可 以 通过 绑 定 HMM 的 状态 进行 数据 共 至 来 解决 这 一 问题 。HTK 提供 了 两 种 
方法 来 绑 定 HMM 中 的 状态 ,这 里 采用 决策 树 的 方式 来 对 状态 进行 聚 类 ,通过 调用 HHED 
命令 来 实现 状态 的 聚 类 。 


HHEd — H macros 一 再 hmmdefs tree. hed triphones 


述 命 令 中 tree. hed 是 决策 树 的 具体 内 容 , 它 规定 了 状态 聚 类 的 有 具体 原则 。 其 内 容 如 
图 6-76 thee 


RO 100.0 stats 

TIR DO 

由 “ge 
QS "R_Class 一 Stop" { +Pp ”+b "+t” +d +k,” +g)} 
QS "L Nasal” {m—- ,n- ,ng— |} 


TR 2 
TB 350.0 “aa 82" {{(aa,” 一 aa -aa+ ,aa+ " ).state[2])} 
TB 350.0 "ae s2" {(ae,” ~ae,” -ae+” ,ae+ “" ).state[2])} 


TR1 

AU "fulllist" 
CO "tiedlist" 
ST "trees" 


图 6-76 ”状态 聚 类 的 决策 树 


LE 
后 号 


口 
0 


% 


™ 
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图 6-76 中 RO 命令 设 定 了 一 个 阅 值 来 防止 那些 与 一 般 状 态 差 异 很 大 的 状态 聚 成 一 个 
单独 的 类 。TR 命令 用 来 设 定 日 志 级 别 。 每 个 QS 命令 设 定 了 一 个 问题 ,例如 第 一 个 QS 命 
令 的 意思 是 这 个 音素 的 左 音素 是 否 为 p、.b、t、d、k、g 中 的 一 个 。TB 命令 用 来 实现 聚 类 ,第 

-条 TB 命令 实现 所 有 以 aa 音素 为 中 心音 素 的 三 音素 (或 二 音素 ) 的 第 二 个 状态 的 聚合 。 
AU 命令 的 参数 fulllist 是 所 有 在 训练 和 识别 过 程 中 可 能 出 现 的 三 音素 的 集合 。CO 命令 找 
到 所 有 聚 类 之 后 相同 的 三 音素 ,并 形成 一 个 列表 tiedlist。ST 命令 可 以 合并 那些 从 未 出 现 
过 的 三 音素 。 

2. 语言 学 模型 训练 

请 言 学 模型 是 词 与 词 之 则 的 概率 统计 信息 ,在 声学 模 型 训练 较 差 的 情况 下 ,请 言 学 模型 
可 以 修正 声学 模型 所 带 来 的 错误 。 下 面 详细 介绍 语言 学 模型 的 训练 方法 。 

1) 数据 准备 

训练 语言 学 模型 所 用 的 数据 为 文本 语 料 。 其 获取 方式 较为 简单 ,可 以 从 互联 网 通过 关 
键 词 搜索 获取 大 量 的 相关 信息 。 由 于 所 要 建立 的 是 以 关键 词 的 音节 为 基本 单位 的 识别 系 
统 , 因 此 需要 将 汉字 转化 为 对 应 的 有 调 音 节 。 接 下 来 需要 根据 关键 词 词 表 对 文本 语 料 进 行 
分 词 。 分词 之 后 的 文本 语 料 格 式 如 图 6-77 所 示 。 


| 
| Ok 
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Yuan2]junl daodda2 chang2zhoul yi3hou4 zhe4ge5 hong2 ]14 he2 
chai2 ke4 hong2 al shl4 jin3mid4peidhe2 dadbai4 wu2yue4 bingl 
bingdqie3 vyinlwei4d zhe4ge5 gqing2kuang4 jin3]ji2 tal jiudyi4 fan3 
nan2 tang2 Jiao3gqiangl bu4 shal de5 fu2lu3zheng4ced4d 

tal ba3 fu21u3 de5 ji3shi2 ge4 wu2yue4 Jiang4l1ing3 al quan2bu4 


kal calle5 suilran2 zhe4ge5 shal fu2 de5 xing2wei2 rang4 zhe4ge5 112 

Jing3 hen3 budgaolxing4 dan4shi4 ne5 zalddangl shi2 zhe4ge5 ju3dong4 

ne5 ye3 que4shl2 qi3dao4d le5 zhen4she4d di2ren2 de5 zuod yong5 vyi3zhi4d 

ci3houd de5 erd4shi2nian2 wu2Yyue4d doul bu5 gan3 dui4d nan2 tang2 dong4shou3dong4]iao3 
suo2y13 hong2 jidde5 zhe4hui2 sheng4 zhed4cl4 sheng4114 a5 tal duidyu2 lian2 chilbai4zhang4 


图 6-77 分 词 之 后 的 文本 语 料 


获取 文本 语 料 的 另 一 种 方式 是 将 声音 语 料 对 应 的 标注 文件 转化 成 HTK 的 语言 学 模型 
训练 可 处 理 的 格式 。 在 进行 转换 前 ,需要 利用 编辑 器 将 标注 文件 中 带 有 路 径 信息 的 所 有 行 
部 去 控 。HTK 提供 了 脚本 LCond 来 实现 转换 操作 : 

LCond inputfile > outputfile 
其 中 ,inputfile 是 标注 文件 ,outputfile 是 输出 的 如 图 6-77 所 示 的 文本 语 料 。 

2) 模型 训练 

HTK 训练 声言 学 模型 时 ,通过 一 张 映射 表 来 统计 词 信 息 , 每 个 词 都 对 应 唯一 的 一 个 
id。 这 个 宋 略 让 HTK 训练 语言 学 模型 时 具有 很 好 的 扩展 性 。 当 有 新 的 文本 语 料 需 要 训练 
时 ,不 需要 重新 构建 这 张 映射 表 , 词 的 统计 信息 会 进行 早 加 ,新 词 也 会 分 配 到 新 的 1d。 因 此 ， 
在 开始 训练 前 需要 一 张 空 的 映射 图 。LNewMap 命令 可 以 实现 这 一 功能 : 

LNewMap — f WEC Holmes empty. wmap 


其 中 ,-f WFC 表示 加 入 每 个 字 出 现 的 次 数 的 统计 ,Holmes 是 映射 表 的 名 字 , 它 是 目 定 义 
的 ,empty. wmap 是 空 表 的 文件 名 。 
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接 下 来 需要 统计 文本 语 料 中 的 词 频 信息 ,用 LGPrep 命令 完成， 
LePrep—T1 -al00000 -b200000 -dholmes.0 -n4 —s "Sherlock Holmes" empty. wmap train/* .txt 


其 中 ,-a 100000 设 定 训 练 文本 中 出 现 的 新 字 的 上 限 ,-b 200000 设 定 内 部 缓存 器 的 大 小 ,每 


次 缓存 器 满 ,就 输出 


-个 文法 文件 ,-d holmes. 0 指定 输出 的 文法 文件 的 存放 目录 ,-n 4 表示 


输出 四 元 文法 ( 连 疆 4 个 关键 词组 成 的 词 串 ),-s "Sherlock Holmes" 只 是 添加 文件 来 源 摘 
述 , 可 以 月 定义 。train/* .txt 为 训练 文本 ,如 下 文本 数量 过 多 ,可 以 采用 -S train. scp 的 形 
式 , 这 时 train. scp 是 文本 文件 路 径 信 息 列 表 。 

命令 执行 成 功 之 后 ,会 在 holmes.0 目录 下 生成 gram. 0 .gram. 1 形式 的 统计 信息 文件 ， 
以 及 更 新 后 的 映射 表 wmap,gram 文件 需要 通过 LGLis 命令 查看 其 内 容 ， 


LGList holmes. 0/wmap holmes. 0/gram. * 


可 以 观察 到 的 文件 形式 如 图 6-78 所 示 。 


qing3tal 
qing3tal 
qing3tal 
qing3tal 
qing3tal 
qing3tal 
qing3wen4 
qing3wen4 
qing3wen4 
qing3wen4 


fud qin3 ge1l3tal 
Jel3wo3 men5 ]1ILedshaod 


jiang2 Jj iang3 ZzZ14]13 

men5 gan3kual4d pal4 

men5 lai2ren2 ne5 

wel4d WO3men5 Jlie4shao4d 
mengd4d lv4shil neng2bu5neng2 
you3mei2you3 bu2rang4 doudfu5 
Zen3me5 zuod cal2neng2 
zhe4ge5 lu2shui3 dian3 


上 


图 6-78 词 串 统计 信息 


图 6-78 中 冒号 前 半 部 分 是 词 串 信息 ,冒号 后 的 数字 表示 这 个 词 串 在 文本 语 料 中 出 现 的 
次 数 。 新 生成 的 映射 表 wmap 如 图 6-79 所 示 。 图 6-79 中 每 个 关键 词 后 面 跟 的 前 一 个 数字 
表示 唯一 的 id, 后 一 个 数字 是 此 关键 词 的 出 现 次 数 。 


Name = Holmes 

SeqNo 

Entries = 51265 

EscMode = RAW 

Fields = ID,WEC 

\Words\ 

<s>65536 89347 

nadme5 65537 3234 
zhe4ge5 65538 12043 
Z14X1ao3 65539 4 
shenglzhang3 65540 42 
Zal4 65541 14048 
huang2gongl 65542 46 
er2qle3 65543 1053 
zul4zhongl 65544 97 
ve3 65545 4661 

dengl shang4 65546 50 
le5 65547 22321 
huang2we14 65548 74 


图 6-79 ”映射 表 结构 


接 下 来 调用 LGCopy 命令 ,将 前 面 生成 的 统计 文件 进行 精细 处 理 , 在 内 部 进行 排序 并 
去 除 重 复 的 词 串 : 


LGCopy -T1 -b200000 —d holmes.1 holmes.0/wmap holmes.0/ gram.” 


其 中 ,-b 200000 是 设置 内 部 缓冲 区 大 小 ,-d holmes. 1 表示 输出 文件 的 路 径 。 

由 于 语言 学 模型 最 后 要 为 语音 识别 服务 ,而 文本 语 料 中 的 词汇 一 般 很 大 ,一 般 都 会 
超过 语音 识别 所 用 的 宇明 ,所 以 需要 过 滤 揉 宇 由 中 不 存在 的 词 。HTK 通过 LGCopy 来 
实现 : 


LGCopy -T1 -oo ~—m]lm 5k/5k.wmap — b 200000 -dlm 5k 一 w5k.wlist holmes.0/wmap holmes. 1/ 
data.“ 


其 中 ,-o 选项 表示 只 生成 映射 文件 ,-m lm_5k/5k. wmap 表示 生成 新 的 映射 表 ,-w 5k. wlist 
表示 从 5k. wlist 旋 入 词 表 文件 。 上 述 命 令 中 ,holmes. 1/data. “是 上 一 步骤 所 生成 的 统计 
言 息 文件 ,最 后 生成 新 的 映射 表 和 统计 信息 文件 ,都 放 在 lm_5k 目录 下 。 与 原 有 数据 的 区 
别 是 ,所 有 在 词 表 5k. wlist 中 没有 出 现 的 词 都 用 符号 “11 UNK? 来 代替 。 

接 下 来 就 可 以 用 LBuild 命令 来 生成 语言 学 模型 。 


LBuild ~ T1 -nal lm 5k/5k.wmap lm 5k/ug 


其 中 ,-n 1 表示 生成 一 元 文法 文件 。 生 成 的 一 元 文法 语言 学 模型 为 ug, 其 内 容 如 图 6-80 所 
示 。 图 中 ngram 1 二 51266 表示 共有 51 266 个 独立 的 关键 词 ,后 面 接 着 的 是 每 个 词 在 文本 
语 料 中 出 现 的 概率 (以 10 为 底 的 对 数 形式 )， 


\ data\ 
ngram 1 = 51266 


\1 - grams : 

一 6.2909 11UNR 

-1.3398 </s > 

一 99.9900 <s> 

一 二 .za55d 日 

一 4.5127 albad 

-6.2909 aler3balni2yad 
一 5.0356 aler3beilsil 

一 5.4458 aler3]j12114VYa4d 
一 4.2227 alftudhan4 
-6.2909 alfudhandyu3 

一 4.8437 algel 

一 5.5127 algenlting2 
-5.8138 alhal 


图 6-80 一 元 文法 语言 学 模型 


接 下 来 可 以 在 一 元 语言 学 模型 的 基础 上 生成 二 元 和 三 元 的 语言 学 模型 。 命 令 如 下 : 
LBuild ~-T1 ~-c21 —-n2 -1 1nm Sk/ug lm 5k/5k. wmap lm Sk/ bgl holmes.1/data.” lm Sk/data. 


其 中 ,-c 2 1 表示 在 二 元 文法 中 的 回 退 数 为 1,-n 2 表示 生成 二 元 文法 语言 学 模型 ,-] 
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lm_5k/ug 表示 在 ug 模型 上 进行 更 新 。 类 似 的 三 元 文法 生成 如 下 命令 ， 


LBuild ~-T1 ~c21 -n3 -1 lm 5k/bgl lm Sk/S5k. wmap lm Sk/tgl_1 holmes.1/ data.* lm Sk/ 
data. 


上 述 两 条 命令 中 通过 -n 选项 就 可 以 指定 生成 语言 学 模型 的 具体 结构 ,最 后 生成 的 二 元 
和 三 元 语言 学 模型 结构 如 图 6-81 和 图 6-82 所 示 。 


BIGRAM: method Katz,cutoff 1 
coef[7|]: 0.000000 0.487842 0.641418 0.710891 0.757700 0.829802 0.797428 


\data\ 
ngram 1 = 51266 
ngram 2 = 144636 


\1 — grams: 


-6.2909 1!1UNK 
-1.3398 </s>-0.2906 


\2 - grams: 

-0.3117 </s><s> 
-3.3113 <S8> al 

一 3.5361 <s> albad... 


图 6-81 二 元 语言 学 模型 


TRIGRAM: method Katz,cutoff 1 
coef[7]: 0.000000 0.353645 0.565698 0.653611 0.696207 0.875728 0.755436 


\data\ 

ngram 1 = 51266 
ngram 2 = 144636 
ngram 3 = 953237 


\1 — grams: 

-6.2909 !IUNK 
-1.3398 </s>-0.2906 
-99.9900 <s>-0.7665 


\2 — grams: 
-0.3117 </s><s>+0.0297 
-3.3713 <s>al -0.5421 


\3 — grams: 

-3.3713 </s><s>al 

-3.5361 </s><s>albad 

-5.1015 </s> <s> aler3ji2lid4vyad4... 


EE 


上 述 语言 学 模型 还 不 能 和 直接 被 HTK 的 识别 命令 HVite 所 使 用 ,更 进一步 ,可 上 
HBuild 命令 将 图 6-81 形式 的 二 元 语言 学 模型 转换 成 图 的 结构 。 


三 
Ea 
过 


HBuild ~ nbgl -s<s></s> 5k.wlist bigram,. net 


上 述 命令 中 ,bgl 是 如 图 6-81 所 示 的 二 元 语言 学 模型 ,bigram. net 是 生成 的 图 结构 的 
二 元 语言 学 模型 ,其 形式 如 图 6-83 所 示 。 这 种 形式 的 语言 学 模型 可 以 直接 作为 HVite 命 
令 的 参数 。 图 6-83 中 第 二 行 信 息 表示 共有 51 267 个 结 点 ,247 165 条 弧 。 接 下 来 第 一 部 
分 信息 是 结 点 信息 ,包括 结 点 号 和 结 点 所 对 应 的 候选 词 。 第 二 部 分 是 弧 的 信息 ,包括 弧 
所 对 应 的 编号 以 及 弧 的 起 始 绪 氮 号 、 结 束 绪 氮 号 和 对 应 的 十 言 学 概率 值 ( 以 10 为 的 的 
对 数 ) 。 


VERSION= 1.0 

N= 51267 L= 247165 
T=0 W= ! NULL 
I=1 W= ! 1!1UNK 
I1=2 W= </s> 

工 = 3 W=<s> 
I=4 W= al 
1=5 W= albad 


J = 94045 S= 22355 E=91721= -10.04 
J = 94046 S= 23378 E=91721= -0.97 
J =94047 S=40414 了 =9172 1= -2.27 
J=94048 S= 46759 E= 91721= 一 9.57 
J = 94049 S= 49081 E= 91721= 一 4.70 


图 6-83 ”语言 学 模型 的 图 形 数据 结构 


至 此 为 止 ,通过 普通 的 文本 语 料 训练 好 了 语言 学 模型 , 接 下 来 就 是 结合 前 面 的 声学 模 
型 ,将 其 应 用 到 识别 过 程 中 。 


6.13.3 识别 阶段 


用 来 进行 识别 及 性 能 评估 的 工具 有 以 下 两 种 。 

HResult: HTK 模型 性 能 分 析 工 具 。 

HVite:; 基于 Viterbi 算法 的 词 识别 央 。 

1. 识别 解码 

在 进行 了 前 面 的 准备 后 ,识别 驶 显得 相对 简单 些 。 虽 然 识 别 算 法 非常 复杂 ,但 对 HTK 
只 需要 一 条 命令 就 可 以 完 

HVite ~ T1 -Hnmllr/macros — Hmllr/hmmdefs -ss10.0 —S spl. scp — i results10/spl.mlf —w LM/ 

bigram.net — C configs/tr wav. cfg -七 250.0 -mn420 -gqAtal -zz lat kev. dct lists/ 

tiedtri. pho 

上 述 命令 中 ,-HH 选项 会 载 和 人 识别 所 需要 的 声学 模型 ,-s 选项 确定 语言 学 模型 的 权重 因 
于,-S 选 项 会 载 人 所 需要 识别 的 声音 ,- 选 项 确定 输出 绪 末 的 存放 位 置 和 文件 名 ,-w 选项 会 


FT 
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载 人 请 言 学 模型 ,-C 选项 会 载 人 配置 文件 ,其 内 容 与 提取 特征 参数 时 的 配置 类 似 ,-t 选项 后 
面 跟 的 参数 是 剪 校 参 数 , 加 入 剪 校 参数 的 目的 是 在 不 明显 降低 准确 率 的 情况 下 减 小 计算 空 
间 , 从 而 加 快 识别 速度 ,-z 选项 表明 除了 输出 One-best 结果 外 ,还 需要 输出 中 间 计 算 结 果 
Lattice,-q 选项 确定 Lattice 的 具体 格式 。 最 后 的 key. dct 是 所 用 的 发 音字 和 典 ,tiedtri. pho 
是 绑 定 状态 之 后 的 三 音 系 列表 。 

2. 性 能 评测 

语音 识别 系统 的 性 能 评测 涉及 两 个 方面 : 识别 速度 和 准确 率 。 对 于 识别 速度 ,可 以 通 
过 简单 的 记录 时 间 点 的 方法 来 确定 ,和 右 需 要 精确 的 时 间 , 则 需要 编 与 程序 来 实现 。 对 于 准确 
这 ,HTK 提供 了 命令 HResults 来 进行 准确 率 评 测 。 


HResults — I ref.mlf tiedlist res.mlf > result. txt 


上 述 命 令 中 ,ref. mlf 为 标注 文件 ,tiedlist 为 三 音 双 列表 ,res. mlf 为 HVite 的 识别 结果 ， 
result. txt 是 评测 的 结果 文件 ,其 结果 如 图 6-84 所 示 。 


= HTK Results Analysis == 
: Tue Oct 31 10: 06: 53 2010 
: .ref.mlf 


: .res. mlf 


Overall Results 
SENT: Correct = 93.33 [H= 14,S=1,N= 15| 


图 6-84 HTK 评测 结果 


图 6-84 上 半 部 分 是 对 比 的 文件 名 称 , 下 面部 分 是 准确 率 统 计 。 在 准确 率 统计 部 分 ,第 
一 行 是 句子 准确 率 , 在 本 例 中 为 93. 33%, 第 二 行 是 字 准 确 率 ,在 本 例 中 为 100%。 关 于 
HTK 具体 细节 的 部 分 ,请 参考 HTKBOOK 。 


6.14 Kaldi 工具 介绍 


6.14.1 Kaldi 工具 简介 


近年 来 ,深度 学 习 技 术 在 语音 识别 中 获得 了 广泛 的 应 用 。 为 了 让 研究 者 能 够 迅速 搭建 

- 套 基于 深度 学 习 的 语音 识别 系统 ,许多 人 研究 机 构 开 发 完成 了 可 实现 深度 学 习 的 平台 框架 ， 
其 中 最 者 名 且 应 用 最 为 广 沁 的 就 是 Kaldi 工具 。 

Kaldi 工具 是 用 发 现 咖 啡 树 的 埃塞俄比亚 牧 半 人 的 名 字 而 命名 的 ,其 前 号 来 日 于 2009 

年 由 约翰 霍 普 金 斯 大 学 的 研究 者 们 所 研发 的 ,针对 新 语言 和 新 领域 应 用 的 高 质量 且 低 消耗 

的 语音 识别 模型 。 它 能 实现 于 空间 高 斯 混合 模型 (subspace gaussian mixture model， 

SGMM) 和 词汇 学 习 。 在 此 基础 上 ,2010 年 上 述 研究 者 对 模型 进行 了 进一步 的 完善 ,给 出 了 

-个 更 为 通用 的 语音 识别 模型 。 此 后 ,在 他 们 的 不 懈 努 力 下 ,于 2011 年 3 月 发 布 基 于 深 

度 学 习 的 语音 识别 工具 Kaldi。 在 2012 年 之 前 ,Kaldi 的 维护 和 扩展 工作 主要 由 微软 研究 院 


负责 ,后 来 又 由 约 萌 霍 普 金 斯 大 学 负责 。 在 Kaldi 的 发 展 过 程 中 ,一 下 有 不 同 的 人 研究 者 贡献 
-bs 


Kaldi 是 一 个 基于 C++ 语言 的 语音 识别 工具 ,可 以 在 Windows 和 Linux 平台 上 进行 编 
详 , 其 主要 模块 天 系 图 如 图 6-85 所 示 。 从 图 中 可 以 看 出 ,Kaldi 工具 的 主要 上 男 数 库 分 别 基于 
两 个 压 层 外 部 库 :; OpenFst 和 ATLAS/CLAPACK 标准 线性 代数 库 。 困 数 库 在 图 中 用 竖 线 
分 隅 为 两 部 分 ,图 数 库 之 间 通 过 Decodable 接口 进行 桥接 。 在 图 数 库 之 上 ,为 进一步 降低 使 
用 者 的 操作 难度 ,设计 了 一 系列 可 操控 并 能 实现 简单 功能 的 可 执行 函数 库 ,以 方便 使 用 者 通 
过 最 前 端的 shell 脚本 进行 调用 ,最 终 实现 搭建 语音 识别 模型 的 目的 。 


外 部 库 


可 执行 函数 库 z 


图 6-85 Kaldi 工具 主要 模块 关系 图 


Kaldi 工具 的 部 分 图 数 库 的 简介 如 表 6-8 所 示 。 其 特点 主要 包括 以 下 几 点 。 

(1) 集成 FST 库 。 

(2) 文 持 线性 代数 计算 。 通 过 集成 标准 BLAS 和 LAPACK 引入 矩阵 库 。 

(3) 文 持 最 大 似 然 训练 。 

(4) 包含 再 首长 度 归 一 化 (vocal tract length normalization, YTLN), 说 请 人 目 适 应 
(speaker adapted transform,SAT) 等 脚本 。 

Kaldi 工具 与 前 面 介绍 的 HITK 工具 相 比 ,其 区 别 体现 在 如 下 几 个 方面 。 

(1) 编写 语言 。HTK 是 用 基于 面向 过 程 的 C 语言 开发 ,而 Kaldi 是 用 基于 面向 对 象 的 
C++ 语 言 开发 。 由 于 编写 语言 的 不 同 , 这 两 种 模型 也 分 别 继承 了 C 语言 和 C++ 请 言 的 部 分 
优点 和 缺 操 :基于 C 语言 的 HTK 的 优点 是 向 单 高 效 , 而 缺点 是 青 要 上 月 己 定 制 内 存 管 理 梗 
块 数据 结构 等 ;基于 C++ 语言 的 民 aldi 的 优点 是 代码 面 问 过 程 ,多 于 修改 与 扩展 ,缺点 是 可 
能 导致 过 度 封 疹 等 。 

(2) 代码 理解 。HTK 的 部 分 经 典 算法 的 代码 较为 陈旧 ,理解 起 来 存在 一 定 难 度 ,并且 
它 的 开发 文档 主要 介绍 算法 和 工具 的 使 用 。Kaldi 则 是 采用 较 新 的 开发 工具 ,代码 阅读 难 
度 有 所 降低 ,并 有 详细 的 类 图 和 接口 函数 的 说 明文 档 等 。 
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表 6-8 Kaldi 主要 函数 简介 


外 部 库 名 称 简介 
OD 提供 BLAS 和 CLAPACK 线性 代数 库 的 C++ 接口 
@ 支持 一 般 及 特殊 形式 的 矩阵 ; 
G) 提供 经 典 的 线性 代数 功能 (如 奇异 值 分 解 等 ) 和 快速 傅 里 叶 变 换 ; 
@ 该 函数 与 Kaldi 的 其 他 代码 互相 独立 ,易于 重新 利用 
OD 实现 基于 C++ 流 的 1/O 功能 ; 
@ 支持 二 值 和 文本 格式 数据 
ATLAS/ ”| 9 可 以 表示 一 个 单独 的 GMM 模型 ,也 可 以 表示 多 个 GMM 模型 的 混合 ; 
CAPLACK @ 与 HMM 函数 间 独 立 
了 支持 MFCC 和 PLP 特征 的 提取 ; 
@ 支持 一 定 程度 上 的 自 定义 ,如 更 改 梅 尔 频 带 个 数 等 参数 ; 
@ 只 支持 wav 格式 音频 文件 ; 
@ 一 般 将 提取 的 特征 写 人 一 个 文件 中 
包含 多 个 线性 变换 方法 ,如 线性 判别 分 析 、 异 方差 线性 判别 分 析 、 基 于 特征 


MMatrix 


feat 


空间 极 大 似 然 线性 回归 、 最 大 似 然 线性 变换 等 
QD 易于 以 多 种 方式 建立 树 结构 ; 

@ 支持 不 同 规模 大 小 的 语义 处 理 
QD 包含 OpenFst 库 的 多 种 扩展 功能 ; 

支持 对 有 限 状 态 转换 器 的 改进 


@ 与 GMM 函数 间 独 立 ; 
OpenFst 可 以 对 每 一 个 音素 进行 单独 定义 
J 目前 完全 使 用 扩展 的 FST 库 ; 
@ 该 函数 并 不 可 以 直接 解码 GMM 或 者 HMM, 只 可 以 通过 FST 进行 
Decoder 调用 ; 
加 包含 三 种 解码 郑 : 简单 解码 器 (可 用 于 学 习 和 练习 目的 ); 快速 解码 器 
(高 度 优 化 ); 精准 解码 器 (速度 很 慢 , 但 精度 较 高 ) 


6.14.2 Kaldi 工具 安装 


这 里 介绍 Kaldi 5. 2. 146 以 及 Ubuntu 16. 04. 2 LTS 系统 的 安装 方式 ,Kaldi 这 一 版 本 
的 安 朗 包 可 以 从 Github 网 站 使 用 git 工具 进行 下 载 。 下 载 后 ,安放 包 中 包含 有 INSTALL 
文件 ,其 中 写 明 了 安 妆 Kaldi 的 步骤 。 具 体 安 朗 和 配置 的 步骤 如 下 。 

(1) 安装 SVN: 


sudo apt ~ get install subversion 


svn update 
(2) 下 载 Kaldi: 


git clone https://github. com/Kaldi-asr/Kaldi. git Kaldi 
cd Kaldi — master/ 


(3) 安装 相关 工具 : 


cd tools/ 
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自 先 , 要 检查 所 安 站 的 Kaldi 的 依赖 库 是 否 和 都 已 经 安 儿 完整 ,检查 方式 如 下 : 
extras/check dependencies. sh 
如 果 所 有 的 依赖 库 都 已 经 安装 完毕 , 则 会 显示 如 下 的 信息 : 
extras/check dependencies. sh: all OK. 
如 条 还 存在 没有 安 痛 的 依赖 库 , 则 需 根 据 提示 安 闻 完 毕 后 ,再 进行 后 续 操 作 。 
其 次 ,安装 Kaldi 必要 的 外 部 依赖 库 , 如 sph2pipe、OpenFst 和 ATLAS, 其 安装 方法 如 
下 : 在 当前 目录 下 输入 
make 
若 用 户 的 机 器 上 有 多 个 CPU , 则 可 以 用 以 下 命令 代替 上 述 指令 ,以 加 快 安装 速度 ， 
make 一 ]j 
(4) 配置 Kaldi: 


cd. .srey/ 

配置 方法 如 下 : 

. /configure — shared 
make depend 

make 


类 似 地 ,如 果 有 多 个 CPU, 可 以 用 以 下 指令 代替 上 述 指令 以 加 快 配 置 速度 . 


make depend — jN 

make 一 jJ 
其 中 ,N 为 CPU 的 个 数 。 

至 此 ,Kaldi 的 安装 与 配置 工作 已 经 全 部 完成 。 

Kaldi 中 封装 了 很 多 样 例 数据 集 和 与 数据 集 对 应 的 识别 模型 ,用 以 测试 Kaldi 工具 安装 
的 正确 性 .完整 性 ,以 及 便于 用 户 快 速 地 了 解 该 框架。 以 yesno 数据 为 例 , 测 试 该 工具 安装 
正确 性 的 脚本 命令 如 下 : 


cd. . /egs/Yesno/s5/ 
. /run. sh 


运行 run. sh 文件 并 观察 模型 输出 信息 ,如 果 Kaldi 安装 正确 , 则 运行 结束 后 将 显示 如 
下 信息 : 


% WER 0.00 [ 0/232, 0ins, Odel, 0sub ] exp/mono0a/decode timit yesno/wer 10 0.0 
6.14.3 数据 准备 


语 料 是 语音 识别 中 的 基础 数据 资源 。 在 众多 的 语料库 中 ,timit 语 料 是 应 用 最 为 广泛 的 
-种 。 它 是 由 美国 德州 仪 郝 公司、 及 省 理工 学 院 和 斯 坦 福 研究 院 合 作 构 建 的 声学 - 音 系 连 疆 
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语音 霹 料 库 。 其 采样 频率 为 16kHz, 发 音 人 分 别 来 自 美 国 八 个 主要 方言 地 区 的 630 个 人 ,每 
人 说 出 给 定 的 10 个 句子 , 共 包 含 6300 个 句子 。 所 有 人 句子 都 在 音素 级 别 上 进行 了 手工 分 割 
和 标注 。 其 中 462 个 说 话 人 的 3696 个 语句 作为 训练 数据 ,总 时 长 3. 14 小 时 ,168 个 说 话 人 
的 1344 个 语句 作为 测试 数据 ,总 时 长 0. 81 小 时 。timit 语料库 的 原始 数据 是 基于 60 个 音 
素 的 ,但 由 于 在 实际 处 理 时 过 于 复杂 ,因此 在 训练 时 往往 被 压缩 至 48 个 音素 , 且 有 研究 者 在 
使 用 39 个 音素 时 取得 更 好 的 效果 。 下 面 我 们 以 timit 语料库 为 例 , 介 绍 数据 的 准备 以 及 模 
型 的 训练 与 识别 内 容 。 

数据 准备 前 的 工作 主要 包括 如 下 步骤 。 

(1) 获取 说 话 人 列表 。 

获取 脚本 命令 为 ， 


ls —-d"$ x*"/train/dr* /% | sed ~e"s:". ¥/::" > $ tmpdir/train spk 


其 中 ,$ tmpdir 为 临时 创建 的 文件 夹 , 人 它 在 数据 处 理 结束 后 即 被 和 删除。 在 该 语句 中 用 正则 
表达 式 来 获取 文件 流 中 的 特定 字 和 从 ,这 一 正则 表达 式 只 适合 于 timit 数据 集 的 命名 格式 ,如 
果 用 户 需 要 使 用 其 他 数据 集 , 那 么 正则 表达 式 也 需 一 并 更 改 。 

(2) 获取 wav 格式 训练 数据 的 文件 列表 。 

获取 脚本 命令 为 : 

find $ x/$train dir ~-not\( - iname 'SRx< '\) - iname '* ,WAV'\| grep —f $ tmpdir/train 

spk > train sp h.flist 


该 文件 的 内 容 如 图 6-86 所 示 。 
/~ /timit/TRAIN/DR3/FNTBO/SI573. WAV 


/~ /timit/TRAIN/DR3/FNTBO/SI679. WAV 
/~ /timit/TRAIN/DR3/FNTBO/SX213. WAV 


/~ /timit/TRAIN/DR3/FNTBO/SX303. WAV 
/~ /timit/TRAIN/DR3/FNTBO/SX393. WAV 


6-86 ”train_sph. flist 文件 


(3) 获取 wav 格式 训练 数据 的 发 音 编 号 。 
获取 脚本 命令 为 : 
sed —e 's:,. Xx/A(., x \)/A(. x \) .WAVS :\1 \2:i'train sph.flist \> $ tmpdir/train sph. uttids 


paste $ tmpdir/train sph.uttids train sph.flist \| sort — kl1,1 > train sph. scp 
cat train sph. scp | awk '{print $ 1}'»> train.uttids 


自 先 对 文件 列表 进行 正则 表达 式 师 选 , 选 出 文件 列表 名 称 中 的 人 人名、 句子 名 关键 词 ,并 共同 
组 成 utt-id( 人 名 -句子 名 ) 存 储 在 临时 文件 夹 $ tmpdir 的 路 径 下 ;再 将 train_sph. flist 和 
uttids 文件 进行 拼接 ,并 按照 宇 母 顺序 排序 来 获得 train_sph. scp 文件 ,内 容 如 图 6-87(a) 所 
示 ; 最 后 将 train_sph. scp 文件 的 第 一 列 提取 出 来 , 即 发 音 编号 文件 train. uttids, 文件 内 容 
如 图 6-87(b) 所 示 。 


FAEMO SI1392 FAEMO SI1392 
/~ /timit/TRAIN/DR2/FAEMO/SI1392. WAV FAEMO SI2022 


FAEMO_ SI2022 FAEMO_SI762 
/~ /timit/TRAIN/DR2/FAEMO/SI2022. WAV FAEMO_ SX132 
FAEMO SI762 FAEMO SX222 
/~ /timit/TRAIN/DR2/FAEMO/SI762. WAV FAEMO SX312 


(a) train sph. scp 文件 (b) train. uttids 文件 
图 6-87 train sph. scp 文件 与 train. uttids 文件 


在 数据 准备 过 程 中 ,对 训练 数据 和 测试 数据 的 准备 方式 几乎 相同 ,因此 这 里 以 处 理 
timit 数据 集中 训练 数据 为 例 , 话 细 介 绍 准备 声音 语 料 和 语言 语 料 的 具体 方式 。 震 额外 说 明 
的 是 ,下 文 介 绍 中 所 有 文件 路 径 的 根 目 录 均 为 一 /kaldi-master/yegsy/timit/s57 。 

1. 语音 语 料 准 备 

为 反映 语 料 原始 音频 的 相关 信息 ,需要 用 一 系列 的 文件 来 对 其 进行 详细 描述 。 主 要 的 
文件 存储 在 data/local/data 文件 目录 中 peso 

1) train,. text 

它 的 主要 功能 是 实现 发 育 编 号 与 该 音频 发 音标 广 的 一 Ne 文件 内 容 如 图 6-88 所 
未 ,图 中 左 侧 字符 串 由 说 话 人 名 称 和 首 频 文件 名 称 组 成 , 即 发 音 编号 ; 右 侧 字符 串 为 对 应 文 
件 的 音素 级 别 的 发 首 内 容 , 即 发 音标 注 。 生 成 该 文件 需 经 过 以 下 儿 个 步 卫 。 


FAEMO SI1392 sil ax suwn mfaor ixveclzaemclpuhlaxs ixcl chuwey shenweherfaarnm 
hh ehzaxclpaeclk ivyng shehveldsil aenveldf ivl vel ss sil 
FAEMO SI2022 sil wah dx aw f i1x cl duh sh iy vecl drayvfao sil 


FAEMO SX132 sil pax vecl bl ihs ix dx iv ehn ow dx erray ixdxiyvelgow hhaenveldixn 
hh ae n vcl d sil 


图 6-88 发 音 编号 与 发 音 音素 对 应 的 train. text 文件 


(1) 生成 未 规整 的 发 音 编 号 与 发 音 音 系 对 应 文件 。 

自 先 , 需 生 成 与 PHN” 格 式 的 训练 数据 相关 的 音 系 列表 文件 train_phn. flist, 该 文件 中 
原始 的 发 首 编 号 与 发 首 首 系 间 一 一 对 应 ;其 次 , 需 提 取出 该 文件 中 的 说 话 人 名 和 音频 文件 
名 ,生成 文件 train_phn. uttids; 青 次 ,将 “PHN” 格 式 文件 转换 为 Kaldi 格式 音素 列表 文件 
train_phn. trans; 最 后 ,将 train_phn. uttids 文件 和 train_phn. trans 文件 整合 在 一 起 ,组 成 
发 音 编号 与 未 规整 发 音 音 紊 间 的 对 应 文件 。 脚 本 命令 如 下 : 


find $ * /{ S$ train dir, $ timit dir} -notAt 一 iname 'SRx '\) — iname '* .PHN' | grep —£ 
$ tmpdir/train spk>$ tmpdir/train phn. flist 
sed —~e 's:. * /AM\(. *\)/A(. x*\).PHNS :\1 \2:i' $ tmpdir/$ {x}_phn. flist \> $ tmpdir/ $ {x}_ 
phn. uttids 
while read line; do 

[—-£f $1ine] || error exit "Cannot find transcription file '$ line" 

cut -£3 —d''"$1line" | tn | sed —e's: ¥X 9 :\n:! 
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done < $ tmpdir/train phn.flist> $ tmpdir/train phn. trans 

paste $ tmpdir/train phn.uttids $ tmpdir/train phn.trans \| sort — kl,1 > train.trans 

(2) 规整 音 系 生成 text 文件 。 

调用 local/timit_norm trans. pl 脚本 文件 实现 对 train. trans 文件 规整 的 功能 ,参数 选 
项 “-m” 的 全 con{/ phones. 60-48-39. gy -to 48 实现 将 首 系 进行 “ 压 连 ”, 即 将 原始 的 60 音 


素 映 射 到 48 个 。 最 终 输 出 发 号 与 发 音标 注 一 peo train. text, 脚本 命令 
如 下 : 
cat train, trans | local/timit norm trans.pl -i — 一 mconf/phones,60 一 48 一 39.map 一 to48 | 


sort > train. text | | exit 1; 


2) traln wav. scp 

它 的 主要 功能 是 通过 调用 Kaldi 内 的 sph2pipe 工具 来 实现 发 音 编号 与 音频 文件 存储 信 
县 的 一 一 对 应 ,文件 内 容 如 图 6-89 所 示 ,图 中 左 侧 为 发 音 编号 , 布 侧 为 与 该 发 首 编 号 相对 应 
的 音频 文件 存储 的 位 置信 息 。 


FAEMO SI1392 /~/Kaldi— master/egs/timit/s5/../../../tools/sph2pipe v2.5/sph2pipe — f wav 
/~ /timit/TRAIN/DR2/FAEMO/SI1392. WAV | 

FAEMO SI2022 /~ /Kaldi— master/egs/timit/s5/../../../tools/sph2pipe v2.5/sph2pipe — £f wav 
/~ /timit/TRAIN/DR2/FAEMO/SI2022. WAV | 

FAEMO_ SI762 /~ /Kaldi - master/egs/timit/s5/../../../tools/sph2pipe v2.5/sph2pipe -— f wav / 
~— /timit/TRAIN/DR2/FAEMO/SI762. WAV | 


FAEMO SX132 /~ /Kaldi - master/egs/timit/s5/../../../tools/sph2pipe v2.5/sph2pipe - £f wav / 
~ /timit/TRAIN/DR2/FAEMO/SX132. WAV | 
FAEMO SX222 / 一 /Kaldi - master/egs/timit/s5/../../../tools/sph2pipe v2.5/sph2pipe - £f wav / 
~ /timit/TRAIN/DR2/FAEMO/SX222. WAV | 


图 6-89 train_wav. scp 文件 


生成 该 文件 的 脚本 命令 为 : 

awk '{printf("%s '$ sph2pipe’ ~ fwav %s|\n", $1, $2);}'< train sph. scp > train wav. scp 
其 中 ,$ sph2pipe 是 sph2pipe 可 执行 文件 所 在 目录 。 

3) train. utt2spk 和 train. spk2utt 

它 的 主要 功能 是 实现 发 音 编号 与 说 话 人 编号 信息 的 一 一 对 应 ,train. utt2spk 的 文件 内 
容 如 图 6-90 所 示 ,图 中 左 侧 为 发 音 编号 Po 姑 ,各 已 知 说 话 人 编号 , 则 右 侧 将 包 
含 具 体 的 说 话 人 编号 。 在 timit 例子 中 ,由 于 发 育 编 号 中 已 包含 说 话 人 信息 ,因此 这 一 步 的 
处 理 相 对 简单 ,可 从 脚本 命令 中 印证 ;如 果 不 知 idol L 体 的 说 话 人 信息 , 则 说 话 人 信 
因 可 由 发 音 编 号 或 “global” 代 蔡 。 生 成 该 文件 的 脚本 命令 为 : 


cut 一 fl 一 dtrain. uttids | paste —d''train.uttids 一 > train.utt2spk 


与 train. 文件 相对 应 的 还 有 train. spk2utt 文件 , 它 与 train. utt2spk 文件 的 内 
容 相 同 但 顺序 不 同 。 它 的 说 话 人 信息 在 前 ,发 音 编号 在 后 ,其 文件 内 容 如 图 6-91 所 示 。 图 
中 第 一 个 字符 串 为 说 话 人 信息 ,后 接 该 说 话 人 所 有 音频 的 发 音 编号 。 该 文件 可 从 train 


. utt2spk 文件 中 生成 ,脚本 命令 为 ， 
cat train. utt2spk | utils/utt2spk to spk2utt. pl > train. spk2utt || exit 1 


其 中 train. utt2spk 文件 作为 输入 ,通过 utils/utt2spk to _spk2utt. pl 脚本 文件 生成 train 
, spk2utt 文件 。 


FAEMO SIl1392 
FBASO SX217 
FBCG1 SI1612 
FBLVO SX138 


FCAGO SI1303 
MCLMO SI2086 
MDLR1 SX399 


图 6-90 train. utt2spk 文件 


4) train. spk2gender 

它 的 主要 功能 是 实现 说 话 人 编号 信息 与 说 话 人 性 别 的 对 应 ,其 内 容 如 图 6-92 所 示 。 图 
中 左 侧 为 说 话 人 编号 , 右 侧 对 应 看 说 话 人 人 性别, 其中“f” 代 表 女 性 ,“m” 代 表 男 性 。 进 一 步 可 
以 观察 到 ,说 话 人 编号 的 站 字母 即 为 说 话 人 人 性别。 生成 该 文件 的 脚本 命令 为 : 


cat train. spk2utt | awk '{print $1}'| perl — ane 'chop; m:^.:; $9 = lc($&); print "$ $d 


mm 下 


n ;'>train, spk2gender 


此 外 ,还 和 存在 着 其 他 声音 博 料 文件 ,如 segments、train_dur. ark、train. stm 等 。 其 中 
segments 文件 用 来 反映 每 条 请 料 的 发 音 分 段 信息 ,通常 在 一 条 请 料 包 仿 多 个 发 首 时 需要 这 
样 的 信息 ; train_dur. ark 文件 将 发 育 编 写 与 音频 总 时 长 信息 对 齐 ; train. stm 文件 则 同时 
包含 发 彰 编 号 、 志 书信 息 、 持 续 时 长 ,说 话 人 性 别 和 发 首 首 系 等 全 部 信息 。 


FAEMO FAEMO SIl392 FAEMO SI2022 FAEMO SI762 
FAEMO SX132 FAEMO SX222 FAEMO SX312 
FAEMO S2402 FAEMO S242 
FAJWO SI1263 FAJWO S11893 FAJWO S1633 
FAJWO S183 FAJWO SX&273 FAJWO SX3 


FAJWO S363 FAJWO SX93 

FALKO_SI1086 FALKO S1456 FALKO S1658 
FALKO SX186 FALKO S2276 FALKO S2366 
FALKO SX6 FALKO SA96 


昌 里 时 时 mh mh mh mh Hh 


图 6-91 train. spk2utt 文件 图 6-92 train. spk2gender 文件 


以 上 所 有 文件 可 通过 运行 如 下 的 脚本 命令 生成 : 

/local/timit data prep. sh $ timit 
其 中 ,$$ timit 为 timit 数据 所 在 目录 。 

知 要 说 明 的 是 ,train/l1ocal/train 文件 夹 下 的 文件 ,在 实际 使 用 时 会 被 复制 到 data/train 
目录 下 。 类 似 地 ,也 可 获得 data/timit 和 data/dev 目录 下 的 文件 。 
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2. 语言 语 料 准 备 

为 反映 与 了 爵 关 注 的 语音 相对 应 的 语言 信息 ,需要 一 系列 文件 对 语言 信息 进行 评 细 的 摘 
述 。 与 语音 语 料 相 比 ,语言 语 料 的 数量 更 多 且 存 储 在 多 个 文件 目录 下 。 下 面 对 之 进行 详细 
的 介绍 。 

1) data/local/ dict 文件 夹 中 的 语言 语 料 

主要 的 请 言语 料 文件 可 大 致 分 为 两 个 部 分 。 

(1) 首 系 文件 。 这 类 文件 主要 包括 : nonsilence phone. txt、 silence phone. txt 和 
optional_silence. txt。 生 成 以 上 三 个 文件 的 脚本 命令 分 别 为 : 


echo sil > $ dir/silence phones. txt 

echo sil > $ dir/optional silence. txt 

cut —d'' 一 f2- § srecdir/train. text | tr '''\n’' | sort ~-u> $dir/phones. txt 

grep —v -FE -ft $dir/silence phones.txt $ dir/phones. txt > $ dir/nonsilence phones. txt 


其 中 ,$srcdir 为 data/local/data 目录 ; $dir 为 当前 目录 , 即 data/local/dict。 

根据 上 述 脚 本 ,在 silence_phones. txt 和 optional phones. txt 文件 中 只 包含 写 人 的 
“sil” 娘 首 首 系 ;进一步 可 通过 语音 请 料 准 备 过 程 中 产生 的 train. text 文件 来 生成 包含 所 有 
痛 双 的 phones. txt 文件 ;最 后 ,在 全 部 音 对 中 去 除 静 音 音 又 得 到 nonsilence_phones. txt 非 
静音 音 系 文件 。 

(2) 字典 文件 。 它 包含 识别 任务 中 所 有 可 能 出 现 的 词 的 集合 ,同时 也 明确 给 出 了 每 个 
词 所 对 应 的 音 率 。 在 Kaldi 中 ;字典 文件 主要 包含 : lexicon. txt 和 lexiconp. txt。 前 者 的 文 
件 内 容 如 图 6-93(a) 所 示 ; 后 者 引入 了 音素 出 现 的 概率 ,但 在 本 示例 中 认为 所 有 出 现 的 概率 
均 为 1 ,其 文件 内 容 如 图 6-93(b) 所 示 。 生 成 字典 文件 的 脚本 命令 为 : 


paste $ dir/phones. txt $ dir/phones. txt > $ dir/lexicon. txt || exit 1 


从 这 一 脚本 命令 中 可 以 看 出 ,lexicon. txt 文件 为 phones. txt 文件 复制 了 两 遍 得 到 的 结 
果 , 日 lexiconp. txt 为 lexicon. txt 文件 中 插入 了 一 列 全 为 1 的 数据 。 


1 
| 本 
J 
1]. 
1 
Ls 
Js 
Ls 


= = 


(a) lexicon, txt 文件 (b) lexiconp. txt 文件 
6-93 lexicon. txt 文件 与 lexiconp. txt 文件 


此 外 ,还 需要 文件 来 说 明 一 些 集 外 的 音 双 集合 、 摘 述 决 策 树 可 以 同 圣 参数 的 集合 ,这 些 
信息 在 timit 示例 中 是 存储 在 extra_questions. txt 文件 中 。 


2) data/local/lang 和 data/lang 文件 夹 中 的 语言 语 料 

(1) data/local/lang_tmp 中 的 语言 语 料 。 类 似 于 data/local/dict 文件 夹 , 也 可 以 将 
data/local/lang_tmp 文件 夹 中 的 文件 分 为 两 类 ， 

中 音素 文件 。 音 素 文件 主要 包括 phones 和 phone_map. txt 文件 ,其 中 phones 文件 是 
将 语音 场 料 文 件 夹 data/local/ data 中 的 nonsilence_phones. txt 和 silence. txt 文件 整合 得 
到 的 ,获取 脚本 命令 为 : 

cat $ srcdir/silence phones. txt $ srcdir/nonsilence phones. txt | \ awk '{for(n=1;n<= NE; 

nt+) print $n; }'> $ tmpdir/phones 


phone map. txt 文件 由 phones 文件 复制 两 珊 生 成 ,脚本 命令 为 ; 
paste —d'' $ tmpdir/phones $ tmpdir/phones > $ tmpdir/phone map. txt 


字典 文件 。 字 盟 文 件 包 括 lexiconp. txt,lex ndisambig、align lexicon. txt 和 lexiconp 
_disambig. txt。 其 中 ,lexiconp. txt 文件 是 由 data/1ocal/ dict 文件 夹 中 的 lexiconp. txt 复制 而 来 ; 
lex_ndisambig 文件 用 以 表示 消除 卜 义 从 号 的 个 数 , 一 般 至 少 要 有 一 个 消除 卜 义 从 号 ; align 
_lexicon. txt 文件 除 包含 所 有 音 双 外 ,还 包含 琅 首 首 系 ; lexiconp_disambig. txt 文件 包含 所 
有 不 是 歧义 符号 音 紊 的 列表 。 

(2) data/lang 中 的 语言 请 料 。 上 述 的 音 系 文件 和 罕 典 文件 并 不 能 耳 接 被 Kaldi 识别 ， 
需要 根据 OpenFst 标准 来 对 其 进行 转换 。 转 换 后 的 文件 存储 在 data/lang 和 data/lang_ 
timit_tg 文件 夹 下 ,其 中 后 者 是 从 前 者 复制 而 来 的 , 且 加 入 了 G. fst 文件 。 类似 地 ,data/ 
lang 目录 下 的 语言 语 料 文件 也 可 以 按照 功能 进行 同样 的 划分 : 

Q 音 系 文件 。 反 映 音 又 信息 的 文件 主要 包括 ， phones. txt、words. txt、oov. txt、oov. int 和 
phone 文件 夹 下 的 文件 。 其 中 phones. txt 和 words. txt 文件 内 容 如 几 6-94(a) 和 图 6-94(b) 
所 示 , 二 者 均 用 于 表示 音 系 符号 的 文本 形式 与 数字 形式 之 间 的 对 应 关系 ; oov. txt 代表 所 
有 发 彰 字 典 外 的 词 , 在 timit 示例 中 该 文件 只 包含 sil 字符 串 , 但 因 其 本 号 没有 任何 意义 ， 
故 可 将 其 替换 为 任意 的 其 他 字符 串 ; oov. int 文件 包含 与 oov. txt 中 字符 串 对 应 的 数字 


(a) phones. txt 文件 (b) words. txt 文件 
图 6-94 phones. txt 文件 与 words. txt 文件 


在 文件 夹 phone 中 ,同一 个 文件 最 多 存在 三 种 文件 格式 ,分 别 为 csl\int 和 txt 格式 , 虽 
然 它 们 的 存储 格式 不 同 ,但 都 表示 相同 文件 的 内 容 。 一 般 用 户 更 倾向 于 关注 txt 格式 的 文 
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件 。 文 件 align lexicon. txt 包含 49 个 音 际 , 即 48 个 发 音 音 条 和 1 个 静音 音叉 ,可 用 于 解码 
时 将 词 和 音 又 进行 相互 转换 ; context_indep. txt 文件 包含 所 有 非 真实 发 音 音 系 的 内 容 ,一 
般 可 包 合 静音 (SIL) .语音 除 音 CSPN) . 非 博 音 噪音 CNSN) 和 类 声 (LAU) 等 。 在 进一步 考虑 
到 词 位 信息 , 则 需 考 虚 非 发 言 音 双 在 发 首 字 典 中 的 位 置 ,一 般 以 B 代表 出 现在 开头 位 置 1 
代表 在 词 内 \E 代表 在 词尾 。 在 timit 示例 中 ,该 文件 只 包含 静音 (SIL) , 且 不 考虑 词 位 信息 ; 
silence. txt 和 nonsilence. txt 文件 分 别 包 含 静 音 和 非 静音 音 系 列表 ,这 两 个 文件 的 并 集 应 该 
履 产 所 有 首 双 集合 ,有 是 它们 之 间 互 奈 。 此 外 ,silence 文件 内 容 应 与 context_ indep. txt 相同 。 
在 本 示例 中 ,silence. txt 包含 SIL 音 系 ,而 nonsilence. txt 包含 YY 和 NN 音 系 ; disambig. txt 
包含 为 消除 政 义 所 引入 的 符号 ,本 示例 中 为 井 0 和 划 1; option_silence. txt 包含 一 个 首 系 ， 
该 音 率 可 在 需要 时 出 现在 词 之 加 ,一般 可 以 在 非 发 音 音 聚 中 选择 ;set. txt 包含 所 有 音素 ， 
但 会 根据 一 定 规 则 将 许多 音 系 进 行 分 组 ,并 将 属于 同一 组 的 音 隶 写 在 同一 行 ,如 将 出 现在 不 
同 词 位 上 的 静音 部 认为 是 一 个 首 双 ,在 本 示例 中 并 不 涉及 分 组 问题 ; extra_questions. txt 文 
件 包含 自动 生成 音素 集合 外 的 一 些 音素 组 合 ; root. txt 文件 中 包含 建立 音素 上 和 下文 决 策 树 
的 相关 信息 ; wdisambig. txt 文件 包含 消除 皮 义 从 号 的 文本 格式 内 容 , 本 示例 中 设置 为 
“ 井 0”; 根据 phones. txt 将 wdisambig. txt 文件 映射 到 wdisambig_phone. txt 中 。 类 似 地 ， 

根据 words. txt 将 PP txt 文件 映射 到 wdisambig words. txt 中 。 

根据 生成 的 txt 文件 ,可 进一步 利用 utils/sym2int. pl 脚本 生成 对 应 的 int 与 csl 格式 
Ws 

昌 字典 文件 。 反 映 字 典 信 息 的 文件 主要 包括 : L. fst 和 LL_disambig. fst。 其 中 L. fst 
文件 为 字典 文件 ,其 生成 脚本 命令 为 ; 


utils/make lexicon fst. pl —— pron — probs $ tmpdir/lexiconp. txt $ sil prob $ silphone | 
fstcompile -- isym— bols = $ dir/phones. txt -~ osymbols = $ dir/words. txt 一 - keep_ isymbols 
= false —— keep osymbols = false | fstarcsort —— sort type= olabel > S$ dir/L.fst || exit 1; 


其 中 ,pron-probs 参数 代表 使 用 lexiconp. txt 格式 的 字典 文件 ; $ sil_prob 代表 裔 音 音 率 的 
概率 ,这 里 设置 为 0; $ silphone 代表 从 data/local/ dict 中 庶 取 的 静音 音 录 ; fstcompile 为 
Kaldi/src/bin 目录 下 的 可 执行 文件 ,主要 功能 是 根据 输入 的 音 系 文件 phone. txt 和 输出 文 
件 words. txt 编 详 成 人 符合 OpenFst 格式 的 宇 典 文件; fstarcsort 为 Kaldi/src/bin 目录 下 的 
可 执行 文件 ,主要 功能 是 对 Fst 格式 文件 进行 排序 ,这 里 指定 参数 ”--sort_type ”的 值 olabel 
为 按照 输出 的 标签 来 进行 排 订 。 
L_disambig. fst 文件 为 包含 消除 皮 义 符号 的 字典 文件 ,其 生成 脚本 命令 为 : 
utils/make lexicon fst. pl —— pron — probs $ tmpdir/lexiconp disambig. txt $ sil prob 
$ silphone '#'$ ndis - ambig| fstcompile —— isymbols = $ dir/phones. txt -~ osymbols = $ dir/ 
words. txt 一 一 keep isymbols = false -— keep osymbols = false | fstaddselfloops $ dir/phones/ 
wdisambig phones. int $ dir/phones/wdisambig words. int | fstarcsort —— sort type = olabel > 
$ dir/L disambig.fst || ex 让 1; 
其 中 ,fstaddselfloops 用 来 添加 消除 监 义 的 符号 。data/local/lang_tmp 和 data/lang 文件 夹 
中 介绍 的 文件 均 可 以 通过 运行 如 下 代码 进行 生成 : 


utils/prepare lang. sh -- sil ~ prob 0.0 -- position - dependent - phones false —— num— sil — 
states 3 \data/local/dict "sil" data/local/lang tmp data/lang 


其 中 ,sil-prob 参数 代表 静音 音 录 出现 的 概率 ,默认 值 为 0.5, 这 里 设置 成 0; position- 
dependent-phones 参数 代表 是 否 考 虑 词 位 信息 ,这 里 设置 为 false, 表 示 不 关心 音 系 出 现 的 
位 置 ; num-sil-states 参数 代表 议 首 模型 中 状态 的 个 数 。 

3. 验证 

在 验证 上 述 文件 之 前 , 需 将 data/lang 下 所 有 文件 都 复制 到 新 创建 的 文件 来 data/lang_ 
timit tg 中 ,需要 注意 的 是 ,在 文件 夹 data/lang_timit_tg 中 ,需要 根据 data/local/nist_lm 
文件 夹 下 的 二 元 语言 模型 生成 G. fst 文件 ,生成 脚本 命令 为 : 


i i i 1 a | 

read — symbol — table = $ timi— t/words.txt — $ timit/G. fst 
其 中 ,gunzip 用 以 解压 二 元 语言 模型 data/local/nist_lm/lm_phone_bg. arpa. gz; arp2fst 用 
来 将 arp 格式 文件 转化 为 fst 格式 ,并 设置 消 际 皮 义 符合 #0” 和 词 列表 words. txt 文件 ,最 
终生 成 G. fst 模型 文件 。 

进一步 用 fstisstochastic 指令 将 G. fst 文件 设置 成 随机 模型 ,以 便于 在 图 中 进行 搜索 与 
使 用 。 为 了 实现 验证 的 目的 , 需 调 用 utils/validate_lang. pl 脚本 文件 测试 lang_timit_ bg 文 
件 夹 下 的 所 有 文件 。 

上 述 介 绍 的 所 有 堵 音 语 料 和 语言 语 料 均 可 以 通过 和 耳 接 运行 local/timit_format_data. sh 
脚本 文件 来 实现 。 


6.14.4 特征 提取 


Kaldi 工具 提供 了 脚本 程序 以 实现 特征 参数 的 提取 功能 ,以 提取 MFCC 特征 为 例 , 在 
timit 示例 中 的 特征 提取 过 程 可 以 大 致 归纳 为 三 步 : 
1. 提取 MFCC 特征 
- 般 Kaldi 默认 提取 的 是 帧 长 25ms、 帧 移 10ms 的 39 维 MFCC 特征 ,实现 其 特征 提取 
的 脚本 命令 为 : 


steps/make mfcc. sh -~ cmd " $train cmd" -~ nj $feats nj data/train exp/make mfcc/ 


train $ mfceccdir 


其 中 ,cmd 参数 代表 执行 的 脚本 文件 ,一般 在 本 机 运行 时 ,$$ train_cmd 为 run. pl,; 如果 在 集 
群 上 运行 , 则 为 queue. pl; nj 参数 的 参数 值 $feats_nj 代表 可 以 并 行 计算 的 数目 ; exp/ make 
= 是 日 志 输 出 文件 ; $ mfccdir 是 提取 MFCC 后 的 存储 位 置 。 

- 步 , 可 以 通过 data/train_yesno/feats. scp 文件 找到 提取 后 的 MFCC 特征 ,该 文件 
Wa 6-95 所 示 。 它 反映 了 发 音 编 号 与 MFCC 特征 存储 信息 之 间 的 对 应 关系 ,图 中 左 
侧 为 发 音 编 号 , 右 侧 指向 Kaldi 格式 的 MFCC 特征 矩阵 ,其 中 骨 号 之 前 为 矩阵 存储 位 置 与 
名 称 , 冒 . 号 之 后 的 数据 指向 矩阵 读 取 的 开始 字符 数目 。 

2. 提取 说 话 人 特征 
为 了 表征 说 话 人 的 相关 信息 ,Kaldi 提供 了 脚本 文件 来 实现 计算 每 一 个 说 话 人 的 均值 
和 方差 统计 量 的 功能 ,实现 的 脚本 命令 为 : 


steps/compute cmvn stats. sh data/train exp/make mfcc/train $§ mfccdir 
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FAEMO SI1392 /~ /Kaldi— master/egs/timit/s5/mfcc/raw mfcc train.1. 
FAEMO SI2022 /~ /Kaldi— master/egs/timit/s5/mfcc/raw mfcc train. 
FAEMO SI762 /~ /Kaldi— master/egs/timit/s5/mfcc/raw mfcce train. 
FAEMO SX132 /~ /Kaldi— master/egs/timit/s5/mfcc/raw nmfcc train. 
FAEMO SX222 /~ /Kaldi— master/egs/timit/s5/mfcc/raw mfcce train. 
FAEMO SX312 /~ /Kaldi— master/egs/timit/s5/mfcc/raw mfcc train. 
FAEMO SX402 /~ /Kaldi— master/egs/timit/s5/mfcc/raw _mfcc train. 
FAEMO SX42 /~/Kaldi— master/egs/timit/s5/mfcc/raw mfcc train.1. 
FAJWO SI1263 /~ /Kaldi— master/egs/timit/s5/mfcc/raw mfcc train. 


图 6-95 ”MEFCC 特征 索引 文件 


其 中 ,提取 的 cmvn 特征 与 上 一 步 提取 的 MFCC 特征 存放 在 同一 个 文件 夹 下 ,可 以 根据 用 户 


的 需求 进行 更 改 。 


通过 cmvn. scp 文件 可 以 看 到 提取 出 的 说 话 人 特征 如 图 6-96 所 示 。 该 文件 表示 说 话 人 
编号 与 所 包含 统计 量 特征 之 间 的 关系, 与 上 述 文件 部 以 发 首 编 号 索引 不 同 , 该 文件 的 左 侧 为 


说 话 人 编号 , 布 侧 信 息 可 参照 上 述 介 绍 的 feat. scp 文件 进行 理解 


总 


FAEMO /~ /Kaldi— master/egs/timit/s5/mfcc/cmvn train.ark:6 


FAJWO /~ /Kaldi - master/egs/timit/s5/mfcc/cmvn train. 
FALKO /~ /Kaldi — master/egs/timit/s5/mfcc/cmvn train. 
FALRO /~ /Kaldi — master/egs/timit/s5/mfcc/cmvn train. 
FAPBO /~ /Kaldi — master/egs/timit/s5/mfcc/cmvn_ train. 


FBAS0 /~ /Kaldi - master/egs/timit/s5/mfcc/cmvn train. 
FBCG1 /~ /Kaldi - master/egs/timit/s5/mfcc/cmvn train. 
FBCHO /~ /Kaldi — master/egs/timit/s5/mfcc/cmvn train. 
FBJLO /~ /Kaldi - master/egs/timit/s5/mfcc/cmvn train. 


图 6-96 ”说话 人 特征 索引 文件 


3. 特征 校 验 


ark: 
ark: 
ark: 
ark: 
ark: 
ark: 
ark: 


ark: 


251 
496 
741 
986 
1231 
1476 
1721 
1966 


在 上 述 两 个 步骤 完成 后 ,一 般 会 用 utils/fix_data_dir. sh 脚本 对 提取 出 的 特征 进行 校 


验 , 校 验 脚本 命令 为 : 


utils/fix data dir. sh data/train 


至 此 ,我 们 就 获得 了 训练 数据 的 语音 语 料 、 语 言语 料 和 声学 特征 。 类 似 地 ,可 以 获得 测 


试 数据 的 语音 语 料 .语言 语 料 和 声学 特征 。 
6.14.5 模型 训练 
1. 声学 模型 训练 


语音 语 料 和 请 言语 料 准备 好 后 ,就 可 以 进行 声学 模型 的 训练 ,这 是 语音 识别 中 非常 重要 


的 环 ,其 训练 过 程 比 较 复 杂 , 下 面 介 绍 其 详细 步骤 。 


1) 单 音 素 GMM-HMM 模型 

(1) 创建 单 音 系 GMM-HMM 模型 。 首 先 , 需 要 定义 一 个 初始 的 HMM 模型 ,该 模型 的 
参数 并 不 重要 ,其 主要 目的 只 是 定义 HMM 的 初始 结构 。 对 于 基于 音素 的 系统 ,常用 5 状 
态 的 HMM 初始 结构 ,状态 转移 为 从 左 至 右 ,并 且 没 有 路 状态 之 间 的 转移 ,其 中 第 一 个 起 始 
状态 和 最 后 一 个 结束 状态 不 产生 观察 值 。 每 个 产生 观察 值 的 状态 由 一 个 或 多 个 高 斯 模型 来 
定义 。 在 timit 示例 中 ,HMM 的 拓扑 结构 存储 在 一 /data/lang/topo 中 ,该 文件 的 内 容 如 
图 6-97 所 示 。 生 成 该 文件 的 脚本 命令 为 : 


utils/gen topo.pl $ num mnonsil states $ num sil states $ nonsilphonelist $ silphonelist \ 
$ dir/topo 


其 中 ,$num-nonsil-states 代表 非 i 音 双 的 状态 个 数 ; $num-sil-states 代表 前 音 音 系 的 
状态 个 数 ; $ nonsilphonelist 代表 非 静音 音素 状态 列表 , 如， 2:3:4:5:……:48; 
$ siljphonelist 代表 静音 音 率 状态 列表 ,如 : 1。 


< Topology> 

< TopologyEntry > 

< ForPhones > 

23456789 1011 12131415 1617 18 19 20 21 222324 25 26 27 28 29 30 31 32 33 34 35 36 37 
38 39 40 41 42 43 44 45 46 47 48 

</ForPhones > 

<State> 0 <PdfClass> 0 <Transition> 0 0.75 <Transition> 1 0.25 </State > 
<State> 1 <PdfClass> 1 <Transition> 1 0.75 <Transition> 2 0.25 </State > 
< State> 2 <PdfClass > 2 <Transition> 2 0.75 <Transition> 3 0.25 </ State > 
<State> 3 </State> 

</TopologyEntry > 

< TopologvyEntry> 

< ForPhones > 

1 

</ ForPhones > 

< State> 0 <PdfCclass> 0 <Transition>00.5<Transition> 1 0.5 </State > 

< State> 1 <PdfClass> 1 <Transition> 1 0.5 <Transition> 2 0.5 </State > 

< State> 2 <PdfClass > 2 <Transition> 2 0.75 <Transition> 3 0.25 </ State > 
< State > 3 </State> 

</TopologyEntry > 

</Topology > 


图 6-97 HMM 拓扑 结构 


生成 初始 HMM 拓扑 结构 后 ,在 后 续 人 处 理 时 可 以 对 该 文件 进行 重 写 。 需 要 注意 的 是 ， 
在 topo 文件 中 要 求 包 含 上 所 有 首 系 ,为 此 ,可 通过 运行 utils/validate_lang. pl 脚本 文件 中 
topo 文件 的 相关 部 分 来 进行 验证 。 

接着 需要 对 HMM 参数 进行 重信 训练 ,一 般 在 单 首 对 模型 中 常用 GMM 模型 对 HMM 
的 观察 概率 进行 估计 ,并 认为 经 过 多 次 循环 训练 后 ,可 以 得 到 音频 帧 与 单 音 系 之 间 较 为 准确 
的 对 应 关系 。 在 Kaldi 工 具 中 ,训练 脚本 命令 为 : 


steps/train mono. sh --mnj "Strain nj" —— cmd "$ train cmd" data/train data/lang exp/mono 


其 中 ,data/train 和 data/lang 均 为 输入 目录 ,exp/mono0a 是 输出 目录 。 运 行 该 脚本 后 ,将 
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生成 两 个 比较 重要 的 文件 ,分 别 为 exp/mono0/final. mdl 和 exp/mono0/tree 文件 。 下 面 将 
简要 介绍 这 两 个 文件 。 

(D exp/mono0/tree 文件 。 该 文件 保存 模型 的 树 形 结构 ,文件 部 分 内 容 如 图 6-98 所 示 。 
查看 该 文件 的 脚本 命令 为 : 


copy — tree —— binary = false tree — 2»>/dev/null| head -5 


其 中 ,head 后 的 常数 值 代 表 在 屏幕 上 打印 tree 文件 的 行 数 。 决 策 树 文件 中 存储 的 是 多 态 类 
型 对 象 EventMap, TE 代表 树 的 各 个 根 结 点 ,CE 代表 树 的 叶子 结 点 ,SE 代表 数 的 分 文 。 
“TE 0 49” 代 表 从 音素 “0” 开 始 和 疝 下 分 裂 成 树 , 且 0 指 问 NULL, 即 为 “sil” 音 素 ;“49” 代 表 一 
共有 49 个 非 静音 音素 , 且 均 指向 “TE -1 3 (CE 0 CE 1 CE 2)”。 “TE -1 3 (CE 0 CE 1 CE 
2) ”代表 每 一 个 音素 都 是 从 HMM 状态 -1” 开 始 分 和 裂 ,状态 “3” 结 束 , 中 间 的 “0、1、2” 状 态 代 
表 HMM 中 的 转移 状态 , 且 分 别 指 问 叶子 结 点 “CE 0 CE 1 CE 2”。 

ContextDependency 1 0 ToPdf TE 0 49 ( NULL TE -13(CEOCE1ICE2 ) 


IE -13(CcCE3CE4CES) 
TIE -13(CE6CE7CES) 


IE -13( CE CE10 CE11) 
TE -13( CE12CE13CE14) 


图 6-98 tree 部 分 文件 内 容 


(exp/mono0/final. mdl 文件 。 该 文件 主要 包含 两 部 分 ,一 是 转移 模型 ,包含 HMM 
的 topo 结构 .转移 概率 等 信息 ;二 是 GMM 模型 。 由 于 转移 模型 的 部 分 信息 在 初始 定义 时 
已 经 有 详细 的 介绍 ,这 里 仅 给 出 GMM 模型 的 部 分 内 容 。 如 图 6-99 所 示 , 其 主要 包含 144 
个 对 角 GMM 模型 的 参数 ,查看 该 文件 的 脚本 命令 为 : 


gmm 一 COPDY 一 一 blnary= false flnal.md]l final.txt 


其 中 ,final. txt 是 final. mdl 文件 可 读 格 式 中 的 一 种 ,可 根据 读者 需要 进行 其 他 更 改 。 

(2) 单 音 素 模 型 的 解码 。Kaldi 中 的 解码 是 通过 解码 图 实现 的 ,因此 首要 的 任务 就 是 先 
生成 一 个 完全 扩展 的 解码 图 ,也 就 是 exp/mono/graph/ HCLG. fst。 该 文件 包含 语言 模型 、 
发 音字 典 、 上 下 文 相 关 性 和 HMM 结构 等 信息 。 生 成 HCLG. fst 的 脚本 命令 为 : 


utils/mkgraph. sh data/lang timit bg exp/mono exp/mono/graph 


在 mkgraph. sh 脚本 中 ,首先 ,通过 发 音字 典 L_disambig. fst 和 语言 模型 G. fst 生成 
LG. fst 模型 ;其 次 ,根据 上 下 文 信息 和 LG. fst 模型 生成 CLG. fst 模型 ;再 次 ,根据 HMM 折 
扑 结构 和 决策 树 构 建 不 带 自 转移 的 声学 模型 Ha. fst; 最 后 ,结合 CLG. fst 和 Ha. fst 模型 生 
成 不 沉 目 转移 的 模型 HCLGa. fst; 进 一 步 增加 日 转移 信息 生成 最 终 的 HCLG. fst 文件 。 根 
据 生 成 的 解码 图 文件 ,可 以 进一步 调用 steps/ decode. sh 文件 进行 解码 ,脚本 命令 如 下 : 


steps/decode. sh -- nj " $ decode nj" -—— cmd " $ decode cmd" exp/mono/graph \\ data/dev exp/ 


mono/decode dev 


其 中 ,exp/mono/graph 为 输入 的 解码 图 目录 ; data/de 是 用 以 解码 的 开发 集 数 据 , 也 是 训练 


数据 集中 的 一 部 分 ; exp/mono/decode_dev 为 解码 开发 集 绪 采 和 日 志 的 输出 目录 。 类 似 
地 ,也 可 以 将 开发 集 数 据 答 换 为 测试 数据 进行 解码 。 


</ TransitionModel > 

< DIMENSION > 39 < NUMPDFS > 144 < DiagGMM > 

<GCONSTS> [ -91.60204 -81.65857 -89.35192 -81.53947 -75.36418 -90.01138 - 90.86282 
— 89.79909 -82.51559 -73.24487 - 101.5293 -91.13091 ]cd 

<WEIGHTS> [ 0.1003769 0.08054997 0. 09269902 0.08678109 0.09298573 0.09166642 0.06755771 
0.06919957 0.1094914 0.08801753 0.05640997 0.06426467 ] 

< MEANS INVVARS> [ 

-0. 4470055 - 0. 04787009 0. 1284737 0. 0371685 0. 105809 0. 05884718 0. 07618926 0. 1199033 
0.0103622 - 0.0005685317 0.009013088 -0.02347971 0.01015939 -1.29069 -0.6631401 - 0.3902128 
-0.2670568 -0.05756468 0.08006055 0.03786627 0.04445076 0.09142894 0.1030269 -0.01520463 
-0.001454035 0. 04848696 1. 678594 0. 06550489 -0.4792977 - 0.5947874 -0.8097691 - 0. 6136009 
-0.5818868 -0.5122716 -0.1678487 -0.165791 -0.081095 0.09395044 0.004859101 

-0.9229062 -0.6611181 0. 1872805 - 0.06724361 0. 2727962 0. 1542772 0. 1292061 0. 1267939 
0.02307595 0.07421731 0. 01841745 0. 04855838 0. 07051554 - 0.05666023 - 0.08118143 -0.02830948 
— 0.02613045 - 0.02770772 0. 0149969 - 0. 00716656 一 0.01460394 -0.01217005 -0.007147735 
0.01319301 0.00476161 -1.479076e- 05 1.291558 0. 1597204 -0.2154122 -0.1074798 -0.2121167 
-0.04482297 -0.09575254 -0.02013388 -0.02941238 -0.06164273 -0.02597237 - 0.09137242 
-0.1011263 

-0.1638432 -0.1521016 0.0266281 - 0.03371468 0.0811193 0.06913384 0.02334668 0.04644215 
0.01229765 0. 02598065 0. 01935443 0. 01965391 0. 03802355 0. 02715992 -0.003678006 -0.08827621 
-0.03048695 -0.0279208 0.0002078019 - 0.02716442 - 0.003458112 0.04507247 -0.0006776031 
-0.02848191 - 0.003405292 0.01362507 0. 1286405 0.06644292 - 0.1997281 - 0.07044564 一 0.1611898 
-0.06868728 - 0. 01847635 - 0. 004550648 0. 02378909 -0.05058976 - 0. 1398546 -0.1262793 

-0.02614208 


图 6-99 ”final. txt 部 分 文件 内 容 


(3) 单 音 对 模型 的 数据 对 齐 。 单 音 系 模型 刨 建 的 最 终 目 的 是 要 将 音频 帧 数据 与 对 应 的 
单 音 率 音节 进行 对 齐 , 以 作为 后 续 处 理 的 指导 。 在 Kaldi 中 ,为 实现 对 齐 的 目的 , 需 运 行 如 
下 脚本 命令 


steps/align si.sh -- boost - silence 1.25 -- nj "8$train nj” -— cmd " $ train cmd" \ data/ 


train data/lang exp/mono exp/mono ali 


Ce boost-silence 参数 表示 在 对 齐 时 对 静音 音 系 增 蝇 的 倍数 ,输入 包括 训练 数据 data/ train、 

吾 二 类 data/lang 和 单 首 双 声学 模型 exp/ mono; 最 终 对 齐 的 数据 存放 在 exp/mono ali 中 。 

音 亲 GMM-HMM 模型 

单 首 系 模 型 损失 了 语 料 中 的 上 下 文 关 联 信 息 ,解决 这 一 问题 的 办 法 是 创建 三 音 取 模型 。 
其 方法 是 通过 人 简单 的 复制 单 音 际 模 型 并 进行 重信 训练 来 完成 。 然 而 在 场 料 有 限 的 前 提 下 ， 
很 多 三 音 系 HMM 模型 并 不 能 得 到 充分 训练 ,为 此 ,可 采用 绑 定 HMM 模型 状态 进行 数据 
共享 的 方法 来 解决 。 

(1) 三 音 紊 GMM-HMM 模型 的 创建 。 生 成 三 音 系 模型 的 脚本 命令 如 下 .: 


steps/train deltas. sh -—— cmd "$ train cmd" S$ numLeavesTril $ numGaussTril\ data/train data/ 
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lang exp/mono ali exp/tril 


其 中 ,$numLeavesTrnil 和 $numGaussTril 分 别人 代表 树 结 构 中 叶 结 点 的 个 数 和 高 斯 模型 个 数 。 

类 似 于 单 音 系 GMM-HMM 模型 ,三 首 系 模型 的 主要 输出 同样 为 树 结 构 文 件 tree 和 
GMM 模型 文件 exp/tril/final. mdl, 其 文件 内 容 分 别 如 图 6-100 和 图 6-101 所 示 。 从 图 中 
可 以 发 现 ,GMM 个 数 从 单 首 和 模型 的 144 个 增长 到 1893 个 ,模型 更 加 复 洒 ,这 在 一 定 程 度 
上 能 更 好 地 估计 三 音素 模型 的 参数 。 


ContextDependency 3 1 ToPdf TE 1 49 ( NULL SE -1 [01] 
{SE—-1[01 

{ CE 0 CE 49 } 

CE 48 } 


SE 一 工 [ 让 工 j 
(SEE -1[0] 
{ SEO[471415 16 17 19 24 25 26 29 30 31 32 34 36 41 42 45 46 | 


图 6-100 tree 部 分 文件 内 容 


</TransitionModel > 

< DIMENSION > 39 < NUMPDFS > 1893 < DiagGMM > 

< GCONSTS> [ - 90. 68062 —- 84. 72952 一 94. 40297 - 83. 50357 — 103. 4105 — 113. 9655 一 107. 3496 
一 95.02911 - 113. 5357 - 74. 04337 — 80. 75091 - 98. 6946 — 94. 05913 — 92. 12508 - 81. 38591 
一 80.97511 - 83. 10806 — 72. 52927 — 99. 34336 - 111. 6551 — 84. 72238 - 86. 41481 — 99. 2084 
一 88.38545 85. 21912 | < WEIGHTS > [ 0. 03798382 0. 0302722 0. 0381362 0. 05428898 0. 03761717 
0.05158569 0. 04308271 0. 02825154 0. 03645323 0. 05522542 0. 05462512 0. 04446131 0. 04805437 
0.03676421 0. 03707749 0. 04808819 0. 03622128 0. 05264683 0. 02963866 0. 03595513 0. 04445494 
0.03335595 0.02359947 0.03016214 0.03199793 ]<MEANS INVVARS> |[ 

— 0. 7190591 — 0. 1279041 -— 0. 05982235 -0. 1128282 0. 08883762 0. 05684559 -— 0. 01655243 
.03743284 0. 1075613 0. 08999646 -0,06958484 -0.04347435 0. 04275401 - 1. 281132 0. 1510023 
.150824 — 0. 2048638 0. 2295833 0. 06100511 0. 1807265 -— 0. 02647892 0. 01073012 0. 05268145 
.006608759 一 0, 06641962 -0.04935033 1. 072926 -2.3686]11 0. 451263 0. 2710969 -0. 1925395 
.153689 0.29874 0.1515149 -0.5653601 一 0.2428148 0.4016531 0.4393909 一 0.09350248 一 1.076387 
-~-0.2174098 一 0.02316529 -0.1061667 0. 16512 0. 131945 一 0. 02175652 一 0.01227975 0. 06094271 
0.1276765 一 0.03052556 -0.02655589 0. 04188745 一 2.703315 一 0.2509435 0. 6222245 一 0.06001567 
0.1719576 0. 07141936 0. 1452206 - 0. 06887978 -0.176571]5 - 0. 01815271 0. 100091 0. 01726345 
—0.1073216 2. 591325 一 1. 248914 -0. 8972168 -0. 7994549 一 1. 239688 -0. 327329 0. 725338 
0.9745765 0.07921772 -0.408874 -0.2701923 -0. 09305334 0. 01643774 -0.483754 -0.09505111 
0.1126759 0.02763857 0.2018789 0. 1364079 0. 1000788 0. 126734 0. 02445919 0.01956219 0. 003343794 
— 0.03722953 0.007047751 -一 1. 367284 -0.64971 一 0.2911931 -0.2959252 一 0.1801731 0. 02016735 
0.02122593 0.02361905 0.09781739 0.1048977 0.01398179 0.01896009 0.05651038 1.740691 0.07125484 
—0.2817089 一 0.4756935 一 1.170851 一 1.034225 一 0.7986169 一 0.5931474 一 0.3404149 一 0.261616 
0.006984916 0. 2100157 0. 04116554 -0.4975867 -0.249782 -0.144656 -0.04440945 0. 09958171 
0.05431331 0. 005446343 0. 07439277 0. 1582079 0. 02935216 -0.1449329 - 0. 0319521 0. 1016101 
一 1.886185 0. 09931654 0. 2180042 - 0. 2841917 0. 1417914 0. 1139885 0. 03122878 -- 0. 10214 
—0.01473761] 0. 07878553 - 0. 02401225 一 0. 07986382 - 0. 04451859 — 0. 05474982 - 0. 4763857 
0.9051164 0.01918584 -0.2425111 -0.2491944 -0.05582526 一 0.2551061 -0.5316036 0.1063587 
0.9737646 0.3688607 -0.2769489 


人 总 号 性 


图 6-101 final. txt 部 分 文件 内 容 
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(2) 三 首 系 模型 的 解码 。 生 成 三 音 系 完全 扩展 解码 图 HCLG. fst 文件 的 脚本 命令 为 : 

utils/mkgraph. sh data/lang timit bg exp/tril exp/tril/graph 

类 似 于 单 音 系 模 型 的 解码 脚本 命令 ,只 需 更 改 输入 的 模型 目录 。 根 据 生 成 的 解码 图 文 
件 , 可 以 进一步 幸 用 steps/ decode. sh 文件 进行 解码 ,脚本 命令 如 下 : 


steps/decode. sh -- nj " $ decode nj" —-—— cmd " $ decode cmd" exp/tril/graph \\ data/dev exp/ 
tril/decode dev 


(3) 三 音素 模型 的 数据 对 齐 。 创 建 三 音素 模型 的 最 终 目的 是 将 音频 帧 数据 与 对 应 的 三 
音素 音节 进行 对 齐 , 以 作为 后 续 处 理 的 指导 。 在 Kaldi 中 ,为 实现 对 齐 的 目的 , 需 运 行 如 下 
脚本 命令 ， 


steps/align si.sh -- nj "$train nj" -~ cmd "$$ train cmd" \ data/train data/lang exp/tril 
exp/tril ali 


其 中 ,输入 包括 训练 数据 data/train、 语 言语 料 data/lang 和 单 音 又 声学 模型 exp/tril ,最 终 
对 齐 的 数据 存放 在 exp/tril_ali 中 。 

在 Kaldi 工具 中 ,在 原始 MFCC 声学 特征 基础 上 可 以 进行 高 层 处 理 , 如 LDA、MLLT 
和 SAT, 并 训练 相应 的 三 音素 模型 。 其 中 ,用 LDA 和 MLLT 处 理 后 的 特征 进行 三 音素 训 
练 的 脚本 文件 为 steps/train_1lda_mllt. sh, 训 练 模型 和 对 齐 文件 分 别 存 放 于 exp/tri2 和 
exp/tri2_ali 文件 目录 中 ;进一步 ,可 调用 脚本 文件 steps/train_sat. sh 在 前 一 步 的 基础 上 进 
行 说 话 人 自 适 应 的 三 音素 模型 的 训练 ; 训练 模型 和 对 齐 文件 分 别 存 放 在 exp/tri3 和 exp/ 
tri3_ali 文件 目录 中 。 下 面 的 介绍 均 基 于 LDA、MLLT.、SAT 三 种 处 理 方法 后 的 三 音素 

3) DNN-HMM 模型 的 训练 

最 早 应 用 到 二 首 识 别 系 统 中 的 深度 学 习 方 法 为 深度 置信 和 网络 (Deep Belief Network， 
DBN) 模 型 。 下 面 就 来 介绍 训练 该 语 首 识别 模型 的 主要 步骤 。 

(1) 获取 {MLLR 特征 。 在 local/nnet/run_dnn. sh 脚本 文件 中 ,输入 特征 是 经 SAT 训 
练 后 的 MFCC 特征 , 即 {MLLR 的 特征 ,因此 在 训练 DBN 网 络 之 前 需 利 用 如 下 脚本 命令 获 
取 {MLLR 特征 : 


steps/nnet/make fmllr feats. sh ——nj 10 -cmd "$train cmd" —— transform— dir $ {gmmdir}_ 
ali \ $ dir/train data/train $ gmmdir $ dir/log $ dir/data 


其 中 ,transform-dir 参数 是 包含 {MLLR 特征 的 文件 夹 , 这 里 $ (gmmdir)_ali 指 问 exp/tri3_ 
ali; $ dir/train 是 包含 所 有 DNN 所 需 特征 文件 的 目标 文件 夹 ,这 里 $dir 指 data-fmllr- 
tri3/train; data/train 是 训练 数据 文件 来; $ gmmdir 是 包含 三 音 紊 GMM-HMM 模型 的 文 
件 夹 , 这 里 $ gmmdir 为 exp/tri3; $ dir/log 是 日 志 输 出 文件 ; $ dir/ data 是 特征 输出 文件 。 

类 似 地 ,可 按照 上 述 方法 获取 测试 集 和 开发 集 的 {MLLR 特征 。 此 外 ,为 进行 交叉 验 
证 ,将 训练 数据 按照 9 : 1 的 比例 分 成 两 份 ,分 割 脚 本 命令 为 . 


utils/subset data dir tr cv.sh $dir $ {dir} tr90 $ {dir} cv10 


(2) DBN 网 络 的 预 训练 。 由 多 个 RBM 堆 鲜 而 成 的 DBN 模型 是 一 种 有 效 的 深度 学 习 
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算法 ,RBM 即 为 组 成 DBN 网 络 的 基本 组 成 单元 。 在 训练 DBN 网 络 时 ,为 更 好 的 学 习 DBN 
网 络 , 通 第 用 预 训练 后 的 RBM 网 络 参 数 作为 DBN 网 络 的 参数 初 妨 值 。 在 Kaldi 工具 中 , 预 
训练 DBN 网 络 的 脚本 命令 为 : 


$ cuda cmd $ dir/log/pretrain dbn. log steps/nnet/pretrain dbn. sh —-—— hid— dim 1024 —- rbnm 一 
iter 20 $ data fmllr/train 8$ dir 


其 中 ,$cuda_cmd 在 根 目录 cmd. sh 配置 ,这 里 设置 为 run.pl; $ dir 指 回 预 训练 输出 文件 
夹 ,这 里 设置 为 exp/dnn4 pretrain-dbn; hid-dim 参数 代表 每 层 神 经 元 个 数 ; rbm-iter 参数 
代表 预 训练 epoch 的 个 数 ; $ data_fmllr/train 指 问 data-fmllr-tri3/train。 

DBN 网 络 预 训练 用 到 的 参数 包括 ;在 steps/nnet/pretrain_dbn. sh 脚本 文件 中 指定 隐 
层 个 数 为 6; 每 个 隐 层 结 扣 个 数 为 1024; 第 一 个 RBM 网 络 结构 为 Gaussian-Bernoulli 形 
式 ,其 余 RBM 为 Bernuolli-Bernuolli 形式 ; RBM 训练 算法 为 对 比 藤 度 算 法 (Contrastive 
Divergence,CD) ; 超 参 数 基准 是 在 100 小 时 的 Switchboard subset 数据 集 上 调 参 得 到 的 。 

第 一 个 RBM 的 输入 为 包含 前 后 5 帧 共 11 帧 在 内 的 {MLLR 特征 ,经 过 6 个 RBM 的 训 
练 传递 ,最 后 一 个 RBM 的 输出 保存 在 exp/dnn4_pretrain_dbn/final. feature_transform 文 
件 中 ,作为 下 一 步 微调 时 的 输入 数据 ,每 一 个 RBM 的 网 络 结构 保存 在 exp/dnn4_pretrain_ 
dbn 文件 夹 中 。 

(3) DBN 网 络 的 微调 。 在 timit 示例 中 ,以 交叉 糯 (Cross-Entropy,CE) 准 则 对 DBN 网 
络 进 行 微调 ,微调 的 脚本 命令 为 : 

$ cuda_cmd $ dir/log/train_nnet. log steps/nnet/train. sh -~ feature - transform 8$ feature_ 

transform —— dbn $ dbn —— hid— lavers 0 —— learn— rate 0.008 $ data fmllr/train tr90 $ data 

fmllr/train cvl0 data/lang $ ali $ali $ dir 
其 中 , $ dir 指 癌 微调 输出 文件 夹 , 这 里 设置 为 exp/dnn4 _pretrain-dbn_ dnn; feature- 
transform 参数 指向 预 训练 过 程 中 最 后 一 个 RBM 的 输出 ; dbn 参数 指定 用 预 训练 的 6 个 
RBM 网 络 堆 倒 组 成 的 DBN 网 络 作 为 初 妈 网络, 这 里 $ dbn 为 exp/dnn4_pretrain-dbn/6. 
dbn; hid-layers 参数 代表 在 指定 初始 DBN 网 络 的 基础 上 是 否 加 入 新 的 隐藏 层 ; learn-rate 
参数 设置 学 习 率 为 0.008; $ data fmllr/train tr90 和 $data fmllr/ train cv10 分 别 为 训练 
集 和 验证 集 数 据 ; $ ali 为 声学 模型 文件 目录 ,这 里 设置 为 $ (gmmdir}_ali, 即 exp/tri3_ali。 

微调 后 生成 DNN 模型 文件 exp/ dnn4_pretrain-dbn_dnn/final. mdl 和 次 策 树 文 件 exp/ 
dnn4 pretrain-dbn dnn/tree, 

(4) DBN 网 络 的 解码 。 在 解码 时 ,类 似 于 上 面 叙 述 , 使 用 以 下 脚本 文件 进行 解码 ,使 用 
的 解码 图 文件 为 exp/tri3 文件 夹 内 的 HCLG. fst 文件 。 解 码 的 脚本 命令 为 : 

steps/nnet/decode. sh --Dnj 20 -- cmd "$ decode cmd”-- acwt 0.2 $ gmmdir/grap $ data fmllr/ 

timit $ dir/decode timit 


其 中 ,acwt 参数 为 剪 校 系数 。 

2. 语言 模型 训练 

语言 模型 是 词 与 词 之 间 的 概率 统计 信息 ,在 声学 模型 训练 较 差 的 情况 下 ,语言 模型 可 以 
修正 声学 模型 所 带 来 的 错误 。 下 面 介 绍 语 言 模型 训练 的 详细 步骤 。 

语言 模型 信息 均 存 储 在 data/local/nist_lm 文件 夹 中 ,主要 利用 IRSTLM 工具 实现 的 
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音 系 二 元 语言 模型 包含 在 压缩 文件 Im phone bg. arpa. gz 中 。 为 建立 语言 模型 , 需 进 行 数 
据 准 备 的 生成 脚本 命令 为 : 


cut —-d'’'—-f2- $srcdir/train. text | sed ~-e 's:*:<s>:' -e's:$ ;</s>:' § srcdir/lm train. 


text 


build~ lnm.sh -i $ srcdir/lm train.text ~-n2 -0o $tmpdir/lm phone bg. ilm. gz 
compile— lm $ tmpdir/lm phone bg. ilm. gz -t= yes /dev/stdout | grep ~ vunk | gzip ~-c> 


$ lmdir/lm phone bg. arpa. gz 


述 脚本 命令 的 主要 内 容 包 括 : 在 train. text 文件 中 每 行 句 首 加 和 人 符号 ”过 s 二 ”, 人 句 尾 
ev irstlIm/bin/build-lm. sh 脚本 文件 生成 首 双 的 语言 模型 ,并 保存 在 
临时 文件 夹 $tmpdir 中 ;最 后 ,调用 irstlmy/ybiny compile-lm 对 上 一 步 产生 的 语言 模型 进行 
编译 处 理 , 并 保存 在 data/1local/nist-lm 文件 夹 中 ,为 解码 做 准备 。 

授 这 gunzip Gl eh 可 以 进一步 查看 生成 的 二 元 语言 模型 文 
件 , 其 中 一 元 文法 语言 学 模型 和 二 元 文法 语言 学 模型 分 别 如 图 6-102 和 图 6-103 所 示 。 
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Kaldi 提供 了 脚本 utils/best_wer. sh 来 评价 词 错 误 认 ,在 timit 示例 中 的 识别 结果 如 


图 6-104 所 示 。 图 中 的 识别 结果 可 分 为 五 个 部 分 。 


(1) 单 音 系 模 型 ,图 中 标记 为 monophone, 本 例 中 该 模型 在 开发 集 和 测试 集 上 的 词 错误 


率 分 别 为 31.7% 和 32.7%。 
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# monophone, deltas. 


% WER 31.7 | 400 15057 | 71.8 19.5 8.7 3.5 31.7 100.0 | -0.457 | exp/mono/decode dev/score 5/ctm 
39phn. filt. sys 

Test Set 
% WER 32.7 | 192 7215 | 70.5 19.8 9.6 3.2 32.7 100.0 | -0.482 | exp/mono/decode timit/score 5/ctm 
39phn. filt. sys 


# tril : first triphone system (delta + delta — delta features) 
Dev Set 
% WER 25.1 | 400 15057 | 78.9 15.9 5.2 4.0 25.1 99.8 | 
39phn. filt. sys 
Test Set 
% WER 25.6 | 192 7215 | 78.3 15.9 5.8 3.9 25.6 100.0 | - 
39phn. fi ~ 1t. svs 


# tri2 : an LDA+ MLLT System 
一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 Dev Set 
% WER 23.0 | 400 15057 | 80.7 14.6 4.7 3.7 23.0 99.5 | 
39phn. filt. sys 
Test Set 
% WER 23.7 | 192 7215 | 80.0 14.8 5.2 3.7 23.7 99.5 | -0.284 | exp/tri2/decode timit/score 10/ctm 
39phn. filt. svys 


# tri3 : Speaker AMdaptive Training (SAT) system 
$% WER 20.3 | 400 15057 | 82.7 12.8 4.5 3.1 20.3 99.8 | 


39phn. filt. svs 
Test Set 


% WER 21.6 | 192 7215 | 81.6 13.6 4.9 3.2 21.6 99.5 | -0.560 | exp/tri3/decode timit/score 10/ctm 
39phn. filt. svys 


# Hybrid System (Karel's DNN) 


% WER 17.5 | 400 15057 | 84.6 10.5 4.8 2.217.5 98.5 | -0. 

score 6/ctm 39phn. filt. sys 

一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 Test Set 

% WER 18.5 | 192 7215 | 84.2 11.0 4.8 2.7 18.5 100.0 | -1.151 | exp/dnn4 pretrain - dbn dnn/decode 
timit/score 4/ctm 39phn. filt. sys 


图 6-104 ”Kaldi 评测 结果 


(2) 基础 三 音 系 模型 ,图 中 标记 为 tril, 本 例 中 该 模型 在 开发 集 和 测试 集 上 的 词 错误 率 
分 别 为 25. 1% 和 25. 6%。 在 单 音 素 模 型 的 基础 上 , 词 错误 率 分 别 降低 了 6.6% 和 7.1%。 
可 以 看 出 ,三 音素 模型 在 表征 语音 信息 方面 的 能 力 更 强 , 建 立 三 音素 模型 是 十 分 必要 的 。 

(3) 基于 LDA 和 MLLT 的 三 音 系 模型 ,图 中 标记 为 tri2, 本 例 中 该 模型 在 开发 集 和 测 
试 集 上 的 词 错误 率 分 别 为 23.0% 和 23.7%% 。 在 基础 三 音 际 模型 基础 上 , 词 错 误 率 进一步 降 
低 了 2.1% 和 1.9%。 

(4) 基于 LDA、MLLT 和 SAT 的 三 音素 模型 ,在 图 中 标记 为 tri3 ,本 例 中 该 模型 在 开发 
集 和 测试 集 上 的 词 错误 率 分 别 为 20. 3% 和 21.6%。 综 合 观察 (3)、(4) 的 实验 结果 不 难 发 
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现 , 加 入 LDA、MLLT 和 SAT 技术 在 语音 识别 问题 中 可 以 进一步 提高 性 能 。 

(5) 基于 DNN 模型 的 实验 性 能 ,图 中 标记 为 Hybrid System, 本 例 中 该 模型 在 开发 集 
和 测试 集 上 的 词 错误 率 分 别 为 17.5% 和 18.5%。 在 这 五 个 实验 模型 中 ,基于 DNN 的 实验 
性 能 达到 最 好 。 但 就 日 前 的 研究 进展 看 ,在 timit 数据 集 上 语音 识别 的 词 销 误 率 已 和 还 还 低 于 
此 实验 中 给 出 的 结果 。 
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第 7 章 说 话 人 识别 


CHAPTER 7 


/.1 概述 


说 话 人 识别 又 称 为 话 关 识别 或 声 纹 识 别 ,是 指 通过 对 说 话 人 语音 信号 的 分 析 处 理 , 目 动 
确认 说 话 人 是 否 在 所 记录 的 话 者 集合 中 ,以 及 进一步 确认 说 话 人 是 谁 的 过 程 。 说 话 人 识别 
技术 与 第 6 曹 的 声音 识别 技术 在 实现 方法 上 有 很 多 相似 之 处 ,者 是 在 提取 原始 声音 信号 中 
有 某 些 特征 参数 的 基础 上 ,建立 相应 的 参考 模板 或 模型 ,然后 按照 一 定 的 判决 规则 来 进行 识 
别 。 很 多 语音 识别 中 使 用 的 特征 或 建 模 方 法 也 可 以 应 用 到 说 话 人 识别 中 。 但 是 由 于 二 者 识 
别 的 目的 不 同 , 在 处 理 案 略 上 和 存在 看 实质 性 的 差异 。 在 语 首 识 别 中 ,特别 是 对 非特 定 人 的 请 
音 识 别 , 为 了 提取 语音 信号 中 所 包含 的 语义 信息 ;应 尽 可 能 地 规避 不 同人 说 话 时 的 差异 性 ; 
而 说 话 人 识别 技术 则 恰恰 相反 , 它 力求 通过 将 声音 信号 中 的 霹 义 信息 平均 化 ,来 挖掘 出 包含 
在 语 首 信号 中 的 说 话 人 的 个 性 因 系 ,因而 更 强调 不 同人 之 间 的 特征 差异 。 

每 个 人 都 有 日 己 的 发 痛 兹 官 , 人 与 人 间 在 发 首 兹 官 上 存在 看 差异 ,例如 在 声 帘 和 声 管 形 
状 上 的 差异 。 不 同人 之 则 在 讲话 时 也 存在 着 发 首 习 惯 上 的 差异 ,包括 方言 土语、 抑扬顿挫 、 
篆 用 词汇 及 讲话 上 的 怪 俯 请 等 。 这 些 发 音 融 家 和 发 音 习 懂 上 的 差异 都 以 复杂 的 形式 反映 在 
说 话 人 语音 的 波形 中 。 这 样 就 使 得 每 个 人 的 二 首部 市 有 强烈 的 个 人 色彩 ,这 是 能 对 说 话 人 
进行 识别 的 客观 保证 。 

说 话 人 识别 问题 的 解决 涉及 人 的 发 首 器 官 ,发 首 习 惯 、 再 学 原理 ,语言 学 知识 、 明 然 语 襄 
理解 等 多 方面 的 内 容 。 因 此 ,说 话 人 识别 是 交叉 运用 心理 学 ,生理 学、 数字 信号 处 理 、 模 式 识 
别 、 人 工 叔 能 、 机 兹 学 习 等 知识 的 一 门 综 合 性 研究 课题 。 

说 话 人 识别 技术 按 其 识别 任务 可 以 分 为 两 类 ; 说 话 人 辨认 (speaker identification) 和 说 
话 人 确认 (speaker verification)。 前 者 用 以 判断 某 段 语 首 是 硅 干 人 中 的 哪 一 个 人 所 说 ,是 
“多 选 一 ”问题 ,而 后 者 用 以 确定 某 段 语音 是 否 是 声言 的 某 个 人 所 说 ,是 一 对 一 ”的 判别 问 
题 。 其 中 ,说 话 人 辨认 又 可 分 为 “ 闭 集 ” 和 “ 开 集 ”两 种 。 开 集 假定 每 识别 的 说 话 人 可 以 在 集 
合 外 ,而 闭 集 假定 每 识别 的 说 话 人 一 定 在 集合 内 。 如 果 话 者 集中 注册 的 说 话 人 的 个 数 为 
N ,那么 在 识别 时 ,说话 人 辨认 需要 进行 N 次 比较 和 判决 , 即 测试 语音 与 话 者 集中 的 每 个 说 
话 人 的 参考 模型 (模板 ) 间 都 要 进行 一 次 匹配 计算 。 如 采 是 开 集 的 情况 ,还 要 对 这 N 个 人 以 
外 的 语音 作出 拒绝 的 判别 。 因 此 ,说 话 人 辨认 系统 的 识别 率 一 般 会 随 话 者 集 人 数 的 增加 而 
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降低 。 而 对 于 说 话 人 确认 系统 ,识别 时 只 涉及 一 个 特定 的 参考 模型 和 测试 语音 之 间 的 比较 
和 判决 ,因此 其 性 能 基本 接近 一 个 津 数 ,可 以 认为 与 话 痢 集 的 规模 无 关 。 

根据 识别 对 象 的 不 同 , 还 可 以 将 说 话 人 识别 分 为 三 类 , 即 与 文本 有 关 (text-dependent)，、 
与 文本 无 关 (text-independent) 和 文本 提示 型 (text-prompted)。 

与 文本 有 关 的 说 话 人 识别 技术 ,要 求 说 话 人 提供 特定 的 关键 词 或 关键 句子 的 语音 作为 
训练 语 料 ,而 识别 时 也 必须 按 相 同 的 内 容 发 音 。 

与 文本 无 关 的 说 话 人 识别 技术 ,不 论 是 在 训练 时 还 是 在 识别 时 都 不 规定 说 话 的 内 容 , 即 
其 识别 对 象 是 日 由 的 语音 信号 。 两 者 相 比 较 而 言 ,与 文本 无 关 的 说 话 人 识别 的 实现 要 困难 
得 多 ,由 于 其 使 用 环境 无 法 控制 ,因而 必须 在 有 目 由 的 语音 信号 中 找到 能 够 表征 说 话 人 信息 的 
特征 和 方法 ,所 以 建立 其 说 话 人 模型 的 困难 就 比较 大 。 当 然 与 文本 无 关 的 说 话 人 识别 具有 
用 户 使 用 方便 ,可 应 用 范围 较 宽 等 优点 ,例如 在 法 姓 鉴 别 、 安 全 监控 等 领域 ,由 于 使 用 者 的 不 
配合 ,事先 无 法 规定 语音 文本 内 容 , 只 能 采用 与 文本 无 关 的 识别 方法 。 

在 上 述 两 种 类 型 的 说 话 人 识别 系统 中 , 虱 存 在 这 样 的 问题 如 果 事 先 设 法 用 录音 汉 置 
把 说 话 人 的 讲话 内 容 记 录 下 来 ,然后 用 于 识别 , 则 往往 会 出 现 被 识别 系统 误 接 受 的 情况 。 

采用 文本 提示 型 的 说 话 人 识别 方法 ,可 以 避免 这 一 问题 。 每 一 次 识别 时 ,识别 系统 在 一 
个 规模 很 大 的 文本 集合 中 选择 提示 文本 ,要 求 说 话 人 按 提 示 文 本 的 内 容 发 音 , 而 识别 和 判决 
是 在 说 话 人 对 文本 内 容 正 确 发 音 的 基础 上 进行 的 ,这 样 就 可 以 防止 说 话 人 的 硬 首 被 盗用 。 

由 于 提示 文本 一 经 指定 后 ,就 可 以 利用 其 内 容 信 息 来 进行 比较 和 判决 ,因此 , 它 比 与 文 
本 无 关 的 方法 更 容易 实现 。 但 文本 提示 的 方法 也 有 目 身 的 难点 , 当 文 本 集 规模 小 时 ,其 拒绝 
次 用 语音 的 能 力 就 会 减弱 ,而 当 文 本 集 规模 大 时 ,其 训练 又 会 十 分 困难 ,在 实际 使 用 时 甚至 
根本 无 法 实现 。 很 多 研究 者 采用 对 有 限 数 量 的 声学 基 元 进行 训练 ,然后 在 识别 时 通过 将 基 
元 模型 连接 组 合 形成 提示 文本 模型 的 方法 来 解决 这 一 问题 。 

说 话 人 识别 技术 有 着 广阔 的 市 场 应 用 前 景 。 通 过 说 话 人 识别 技术 ,可 以 实现 利用 语音 
信息 进行 导 份 鉴别 ,例如 电话 信 志 罪犯 缉拿 ,法 姓 中 电话 录 首 信息 的 喘 份 确认 、 电 话语 首 i 
踪 、 为 用 户 提 供 防 盗 门 开启 功能 等 。 在 互联 网 应 用 及 通信 和 领域 ,说 话 人 识别 搁 术 可 以 应 用 于 
诸如 声音 拨号 、 电 话 银 行 、 电 话 购 物 、 数 据 库 访 问 \ 信 息 服 务 、 语 音 E-mail、 安 全 控制 .计算 机 
远程 登录 等 领域 。 在 呼叫 中 心 应 用 上 ,说 话 人 识别 技术 同样 可 以 提供 更 加 个 性 化 的 人 机 交 
互 界 面 , 当 顾 客 以 电话 方式 对 呼叫 中 心 进行 请 求 时 ,系统 能 够 根据 话音 判断 出 来 者 号 份 ,从 
而 提供 更 具 个 性 化 、 更 贴心 的 服务 。 

说 话 人 识别 的 基本 原理 如 图 7-1 所 示 , 主 要 包括 两 个 阶段 , 即 训 练 阶段 和 识别 阶段 。 训 
练 阶段 ,根据 话 者 集中 的 每 个 说 话 人 的 训练 语 料 , 经 特征 提取 后 ,建立 各 说 话 人 的 模板 或 模 
型 。 识 别 阶段 ,对待 识 人 的 博 音 同样 经 特征 提取 后 ,与 系统 训练 时 产生 的 模板 或 模型 进行 比 
较 。 在 训话 人 辨认 中 , 取 与 测试 语音 相似 度 最 大 的 模型 所 对 应 的 说 话 人 作为 识 列 结果 ;在 说 
话 人 确认 中 , 则 通过 判断 测试 音 与 所 声称 说 话 人 的 模型 之 间 的 相似 度 是 否 大 于 一 定 的 判决 
国 值 , 作 出 确认 与 耕 的 判断 。 由 此 可 见 , 说 话 人 辨认 和 说 话 人 确认 仅 在 判决 策略 上 有 所 
不 同 。 

由 图 7-1 可 兄 , 说 话 人 识别 系统 的 实现 可 以 分 解 成 如 下 几 个 基本 问题 : 

(1) 语音 信号 的 预 处 理 和 特征 提取 , 即 提取 能 够 有 效 表 征 说 话 人 特征 的 参数 ; 

(2) 说 话 人 模型 的 建立 和 模型 参数 的 训练 ; 
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训练 


特征 所 取 


图 7-1 说 话 人 识别 系统 原理 图 


(3) 测试 语音 与 说 话 人 模型 的 匹配 计算 ; 

(4) 识别 与 判决 策略 , 即 根据 匹 配 计 算 的 结果 ,采用 某 种 判决 准则 判定 说 话 人 是 否 是 所 
声称 的 说 话 人 (说 话 人 确认 ) 或 说 话 人 到 底 是 谁 (说 话 人 辨认 ) 。 

从 语音 信号 中 提取 能 反映 说 话 人 个 性 的 特征 参数 是 说 话 人 识别 的 关键 。 在 理想 情况 
下 ,这些 特征 应 该 具有 如 下 特点 : 

(1) 具有 很 高 的 区 别 说 话 人 的 能 力 ,能 够 充分 体现 说 话 人 个 体 间 的 较 大 的 差异 ,而 在 说 
话 人 本 号 的 语音 发 生变 化 时 保持 相对 稳定 ; 

(2) 在 输入 语音 受到 传输 通道 和 噪声 的 影响 时 ,能够 具有 较 好 的 项 健 性 ; 

(3) 易于 提取 、 易 于 计算 ,并 且 在 特征 的 各 维 参数 之 间 应 有 良好 的 独立 性 ,在 保持 高 识 
别 率 的 情况 下 ,应 有 尽 可 能 少 的 特征 维 数 ; 

(4) 不 易 被 模仿 。 

然而 目前 还 没有 找 出 符合 上 述 特 点 的 有 效 的 特征 参数 。 语 音信 号 是 语音 内 容 特 征 与 说 
话 人 个 性 特征 的 混合 体 , 且 混合 方式 极其 复杂 ,要 从 中 提取 出 纯粹 的 说 话 人 个 性 特征 十 分 困 
难 。 目 前 ,在 说 话 人 识别 任务 中 和 常 采 用 与 语 首 识别 相同 的 声学 特征 ,包括 基于 声 道 的 
LPCC、 基 于 临界 市 的 MFCC 及 基于 临界 市 和 等 啊 度 曲线 的 PLP、 基 音 轮 廓 特征 .考虑 声音 
动态 特性 的 一 阶 和 二 阶 差 分 倒 谱 ,以 及 其 他 基于 听觉 模型 的 特征 等 。 

对 与 文本 有 关 的 说 话 人 识别 任务 而 言 ,由 于 文本 内 容 是 已 知 的 ,因此 在 识别 时 所 提取 的 
语音 信号 的 声学 特征 中 ,所 蕴含 的 语义 信息 可 以 被 粗略 地 认为 是 已 知 量 ,这 样 就 可 以 认为 对 
应 声学 特征 间 的 差异 仅 来 自 于 说 话 人 的 影响 。 因 而 ,即使 用 比较 短 的 语 料 , 也 能 从 中 提取 出 
较 稳定 的 说 话 人 特征 。 所 以 与 文本 有 关 的 说 话 人 识别 系统 往往 能 获得 比较 令 人 满意 的 识别 
率 。 目 前 在 很 多 应 用 领域 ,与 文本 有 关 的 说 话 人 识别 技术 已 经 达到 了 可 以 实用 化 的 水 平 。 
同时 ,从 算法 实现 的 角度 看 ,与 文本 有 关 的 说 话 人 识别 方法 与 语音 识别 的 方法 十 分 相似 ,最 
功用 的 也 是 基于 DTW 的 方法 和 基于 HMM 的 方法 等 。 

考虑 到 与 语音 识别 的 相似 性 ,以 及 这 两 种 方法 的 工作 原理 和 实现 细节 在 前 文中 已 经 有 
详细 的 论述 ,这 里 仅 以 基于 HMM 的 说 话 人 识别 系统 为 例 来 说 明 其 实现 过 程 。 通 常 系统 分 
为 两 个 阶段 , 即 训练 阶段 和 识别 阶段 。 在 训练 阶段 ,针对 各 用 户 对 规定 语句 或 关键 词 的 发 首 
进行 特征 分 析 ,提取 说 话 人 语音 特征 矢量 的 时 间 序 列 。 然 后 利用 从 左 到 右 的 HMM 建立 这 
些 时 间 序 列 的 声学 模型 。 巾 于 文本 是 固定 的 ,因此 特征 矢量 的 时 间 构 造 是 确定 的 ,利用 从 左 
到 右 的 HMM 能 较 好 地 反映 特征 天 量 的 时 间 构 造 特 性 。 在 识别 阶段 ,与 训练 阶段 类 似 , 先 
从 输入 语音 信号 中 提取 特征 矢量 的 时 间 序 列 , 然 后 利用 HMM 计算 该 输入 序列 的 生成 概 
率 , 并 且 根 据 一 定 的 相似 性 准则 来 判定 识别 结果 。 对 于 说 话 人 辨认 系统 ,所 得 概率 值 最 大 的 
参考 模型 所 对 应 的 使 用 者 , 即 被 判定 为 发 音 的 说 话 人 。 对 于 说 话 人 确认 系统 , 则 把 所 得 概率 
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值 导 判决 装 值 相 比 较 , 其 人 大 于 或 等 于 判决 国 值 的 声音 作为 本 人 的 声音 筱 接受 ,小 于 判决 国 
值 的 作为 他 人 的 再 首 锌 拒绝 ，。 

在 训练 数据 比较 充分 的 情况 下 ,HMM 可 以 有 效 地 把 频谱 特征 的 统计 变化 模型 化 ,因此 
可 以 得 到 比 基 于 DTW 方法 更 好 的 识别 率 。 而 基于 DTW 的 系统 性 能 比较 稳定 ,即使 在 训 
练 数据 较 少 的 情况 下 也 能 获得 较 好 的 识别 效 打 。 

相 比较 而 言 , 导 文本 无 关 的 说 话 人 识别 任务 要 困难 得 多 ,其 声学 特征 中 同时 殖 含 着 请 义 
言 县 和 说 语 人 信息 ,而 由 于 事先 不 知道 文本 内 容 , 因 而 此 时 的 语义 信息 对 识别 系统 而 言 也 是 
未 知 量 , 这 会 严重 干扰 其 对 说 语 人 信息 的 识别 与 决策 。 与 文本 无 天 的 遍 语 人 识别 研究 受到 
了 研究 痢 的 普 过 关注 ,也 提出 了 许多 解决 方案 。 本 章 后 面 各 方 将 逐一 介绍 各 种 己 文 本 无 天 
的 说 话 人 识别 技术 。 


/71.2 基于 GMM 与 GMM-UBM 说 话 人 人 识 唱 


近年 来 ,从 高 斯 混合 模型 (Gaussian mixture model,GMM) 方 法 派生 出 来 的 基于 GMM 
和 通用 背景 模型 (uniform background model, UBM) 的 人 研究 方法 , 因 其 和 伽 单 有 效 且 珊 健 性 强 
等 优点 , 迄 速 成 为 说 语 人 识别 中 的 主要 技术 ,并 由 此 将 说 话 人 识别 技术 市 人 了 一 个 新 的 阶 
段 。GMM-UBM 方法 采用 大 量 的 背景 说 话 人 语音 训练 UBM 模型 ,并 利用 少量 的 目标 说 话 
人 语音 ,根据 UBM 模型 日 适应 得 到 该 说 话 人 的 识别 模型 ,很 好 地 解决 了 传统 方法 中 因 训 练 
语 料 不 充分 ,不 能 覆盖 所 有 发 音 内 容 而 带 来 的 识别 性 能 下 降 的 问题 。 在 美国 国家 标准 与 技 
术 研 究 院 (National Institute of Standards and Technology, NIST) 所 组 织 的 说 话 人 识别 评 
测 中 ,基于 GMM-UBM 的 说 话 人 识别 系统 及 其 改进 系统 取得 了 较 好 的 性 能 。 下 面 就 具体 
介绍 这 种 方法 。 


7.2.1 GMM 的 说 话 人 识别 


基于 GMM 的 说 话 人 识别 系统 也 分 为 训练 和 识别 两 个 阶段 。 在 训练 阶段 ,为 每 个 目标 
说 话 人 语音 建立 一 个 GMM 模型 ;在 识别 阶段 ,根据 不 同 的 应 用 (说 话 人 辨认 说话 人 确 
认 ) ,进行 不 同 的 匹配 处 理 来 获取 得 分 ;在 获取 得 分 后 ,还 需要 通过 与 设置 的 国 值 比较 来 得 到 
最 终 的 识别 结果 。 下 面 针 对 以 上 两 个 阶段 分 别 来 进行 介绍 。 

1. 训练 阶段 

GMM 本 质 上 是 一 种 多 维 概率 密度 图 数 ,将 其 应 用 于 说 话 人 识别 系统 时 , 通 痢 是 为 每 个 
目标 说 话 人 的 语音 建立 一 个 GMM 模型 。GMM 采用 多 个 高 斯 函数 的 线性 加 权 来 拟 合 目标 
说 话 人 语音 特征 矢量 o 的 概率 分 布 。 设 混合 度 为 C 的 GMM 的 参数 集 为 4, 晶 用 4 来 表示 
该 GMM, 则 o 在 4+ 上 的 概率 密度 输出 为 C 个 高 斯 概 卒 密度 图 数 的 线性 加 权 和 
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其 中 ,o 为 F 维 的 再 学 特征 和 拓 量 ,x 为 第 c 个 分 量 的 混合 权 值 ,其 值 为 对 应 的 高 斯 分 量 的 先 
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